論文の概要: Mixture-of-Domain-Adapters: Decoupling and Injecting Domain Knowledge to
Pre-trained Language Models Memories
- arxiv url: http://arxiv.org/abs/2306.05406v1
- Date: Thu, 8 Jun 2023 17:54:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 12:55:18.748805
- Title: Mixture-of-Domain-Adapters: Decoupling and Injecting Domain Knowledge to
Pre-trained Language Models Memories
- Title(参考訳): ドメイン適応の混合:事前学習された言語モデルに対するドメイン知識の分離と注入
- Authors: Shizhe Diao, Tianyang Xu, Ruijia Xu, Jiawei Wang, Tong Zhang
- Abstract要約: プレトレーニング言語モデル(PLM)は、特定のドメインで苦労しながら、ジェネリックドメインのテキストを理解する優れた能力を示す。
本稿では,数個のパラメータをチューニングするだけで,PLMを効果的かつ効率的に適用できるかどうかを検討する。
具体的には、トランスフォーマーアーキテクチャのフィードフォワードネットワーク(FFN)を、旧ドメインの知識を維持するためにトレーニング済みのFFNと、ドメイン固有の知識を並列に注入するための新しいドメイン固有のアダプタの2つに分割する。
- 参考スコア(独自算出の注目度): 31.995033685838962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models (PLMs) demonstrate excellent abilities to
understand texts in the generic domain while struggling in a specific domain.
Although continued pre-training on a large domain-specific corpus is effective,
it is costly to tune all the parameters on the domain. In this paper, we
investigate whether we can adapt PLMs both effectively and efficiently by only
tuning a few parameters. Specifically, we decouple the feed-forward networks
(FFNs) of the Transformer architecture into two parts: the original pre-trained
FFNs to maintain the old-domain knowledge and our novel domain-specific
adapters to inject domain-specific knowledge in parallel. Then we adopt a
mixture-of-adapters gate to fuse the knowledge from different domain adapters
dynamically. Our proposed Mixture-of-Domain-Adapters (MixDA) employs a
two-stage adapter-tuning strategy that leverages both unlabeled data and
labeled data to help the domain adaptation: i) domain-specific adapter on
unlabeled data; followed by ii) the task-specific adapter on labeled data.
MixDA can be seamlessly plugged into the pretraining-finetuning paradigm and
our experiments demonstrate that MixDA achieves superior performance on
in-domain tasks (GLUE), out-of-domain tasks (ChemProt, RCT, IMDB, Amazon), and
knowledge-intensive tasks (KILT). Further analyses demonstrate the reliability,
scalability, and efficiency of our method. The code is available at
https://github.com/Amano-Aki/Mixture-of-Domain-Adapters.
- Abstract(参考訳): プレトレーニング言語モデル(PLM)は、特定のドメインで苦労しながら、ジェネリックドメインのテキストを理解する優れた能力を示す。
大きなドメイン固有コーパスでの事前トレーニングは有効であるが、ドメイン上のすべてのパラメータをチューニングするのはコストがかかる。
本稿では,数個のパラメータをチューニングするだけで,PLMを効果的かつ効率的に適用できるかどうかを検討する。
具体的には、トランスフォーマーアーキテクチャのフィードフォワードネットワーク(FFN)を、旧ドメイン知識を維持するためにトレーニング済みのFFNと、ドメイン固有知識を並列に注入する新しいドメイン固有アダプタの2つの部分に分割する。
次に、異なるドメインアダプタからの知識を動的に融合するために、mixed-of-adaptersゲートを採用します。
提案するmix-of-domain-adapters(mixda)は,ラベルなしデータとラベル付きデータの両方を活用する2段階のアダプタチューニング戦略を採用している。
一 ラベルなしデータに関するドメイン特化アダプタ
ii) ラベル付きデータに対するタスク固有のアダプタ。
実験では、MixDAがドメイン内タスク(GLUE)、ドメイン外タスク(ChemProt, RCT, IMDB, Amazon)、知識集約タスク(KILT)において、優れたパフォーマンスを達成することを示した。
さらに,本手法の信頼性,スケーラビリティ,効率性を考察した。
コードはhttps://github.com/Amano-Aki/Mixture-of-Domain-Adaptersで入手できる。
関連論文リスト
- AdapterSoup: Weight Averaging to Improve Generalization of Pretrained
Language Models [127.04370753583261]
事前訓練された言語モデル(PLM)は、大規模なコーパスで訓練されるが、しばしば特定のドメインに特化する必要がある。
解決策は、テスト時に新しいドメインに関連ドメインアダプタを使用することである。
本稿では、異なるドメインでトレーニングされたアダプタの重量空間平均化を行うAdapterSoupを紹介する。
論文 参考訳(メタデータ) (2023-02-14T13:09:23Z) - UDApter -- Efficient Domain Adaptation Using Adapters [29.70751969196527]
教師なし領域適応をより効率的にするための2つの手法を提案する。
最初のメソッドは、UDAを2段階のプロセスに分解する。
私たちは、完全なモデルパラメータのごく一部を微調整することで、自然言語推論タスクの0.85% F1以内です。
論文 参考訳(メタデータ) (2023-02-07T02:04:17Z) - Meta-DMoE: Adapting to Domain Shift by Meta-Distillation from
Mixture-of-Experts [33.21435044949033]
既存のほとんどのメソッドは、単一のモデルを使って複数のソースドメインでトレーニングを行います。
本稿では,知識蒸留プロセスとして定式化された非教師なし試験時間適応のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-08T02:28:10Z) - Unsupervised Domain Adaptation with Adapter [34.22467238579088]
本稿では、教師なしドメイン適応のためのアダプタベースの微調整手法について検討する。
いくつかのトレーニング可能なアダプタモジュールがPrLMに挿入され、元のPrLMのパラメータを固定することで、組み込みの汎用知識が保持される。
2つのベンチマークデータセットに関する実験を行い、その結果、我々のアプローチが異なるタスク、データセットサイズ、ドメインの類似性に対して有効であることを実証した。
論文 参考訳(メタデータ) (2021-11-01T02:50:53Z) - Multilingual Domain Adaptation for NMT: Decoupling Language and Domain
Information with Adapters [66.7986513246294]
機械翻訳の文脈における言語とドメインアダプタの構成性について検討する。
部分的なリソースのシナリオでは、ドメイン固有のアダプタと言語固有のアダプタの組み合わせは、しばしば欠落した言語を破滅的に忘れてしまう。
論文 参考訳(メタデータ) (2021-10-18T18:55:23Z) - CDTrans: Cross-domain Transformer for Unsupervised Domain Adaptation [44.06904757181245]
Unsupervised domain adapt (UDA) は、ラベル付きソースドメインから異なるラベル付きターゲットドメインに学習した知識を転送することを目的としている。
カテゴリレベルに基づくUDAの根本的な問題は、ターゲットドメインのサンプル用の擬似ラベルの生成である。
我々は,対象サンプルの擬似ラベルを生成するために,双方向中心認識ラベルアルゴリズムを設計する。
擬似ラベルとともに、ソース/ターゲット特徴学習とソース/ターゲット領域アライメントに自己アテンションとクロスアテンションを適用するために、ウェイトシェアリング・トリプルブランチ・トランスフォーマー・フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-13T17:59:07Z) - Stagewise Unsupervised Domain Adaptation with Adversarial Self-Training
for Road Segmentation of Remote Sensing Images [93.50240389540252]
リモートセンシング画像からの道路セグメンテーションは、幅広い応用可能性を持つ課題である。
本稿では,この領域における領域シフト(DS)問題に対処するため,RoadDAと呼ばれる新たな段階的ドメイン適応モデルを提案する。
2つのベンチマーク実験の結果、RoadDAはドメインギャップを効率的に減らし、最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-08-28T09:29:14Z) - Cross-domain Contrastive Learning for Unsupervised Domain Adaptation [108.63914324182984]
教師なしドメイン適応(Unsupervised domain adapt、UDA)は、完全にラベル付けされたソースドメインから異なるラベル付けされていないターゲットドメインに学習した知識を転送することを目的としている。
対照的な自己教師型学習に基づいて、トレーニングとテストセット間のドメインの相違を低減するために、機能を整列させます。
論文 参考訳(メタデータ) (2021-06-10T06:32:30Z) - Contrastive Learning and Self-Training for Unsupervised Domain
Adaptation in Semantic Segmentation [71.77083272602525]
UDAはラベル付きソースドメインからラベルなしターゲットドメインへの効率的な知識伝達を試みている。
本稿では,領域にまたがるカテゴリ別センタロイドを適応させるコントラスト学習手法を提案する。
提案手法を自己学習で拡張し,メモリ効率の良い時間アンサンブルを用いて一貫性と信頼性の高い擬似ラベルを生成する。
論文 参考訳(メタデータ) (2021-05-05T11:55:53Z) - Deep Domain-Adversarial Image Generation for Domain Generalisation [115.21519842245752]
マシンラーニングモデルは通常、ソースデータセットでトレーニングされたり、異なるディストリビューションのターゲットデータセットで評価されたりする際に、ドメインシフトの問題に悩まされる。
この問題を解決するために、ドメイン一般化(DG)手法は、訓練されたモデルが未知のドメインに一般化できるように、複数のソースドメインからのデータを活用することを目的としている。
我々はemphDeep Domain-Adversarial Image Generation (DDAIG)に基づく新しいDG手法を提案する。
論文 参考訳(メタデータ) (2020-03-12T23:17:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。