論文の概要: AdapterSoup: Weight Averaging to Improve Generalization of Pretrained
Language Models
- arxiv url: http://arxiv.org/abs/2302.07027v3
- Date: Tue, 28 Mar 2023 13:37:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 18:41:22.886793
- Title: AdapterSoup: Weight Averaging to Improve Generalization of Pretrained
Language Models
- Title(参考訳): adaptersoup: 事前学習された言語モデルの一般化を改善するための重量平均化
- Authors: Alexandra Chronopoulou, Matthew E. Peters, Alexander Fraser, Jesse
Dodge
- Abstract要約: 事前訓練された言語モデル(PLM)は、大規模なコーパスで訓練されるが、しばしば特定のドメインに特化する必要がある。
解決策は、テスト時に新しいドメインに関連ドメインアダプタを使用することである。
本稿では、異なるドメインでトレーニングされたアダプタの重量空間平均化を行うAdapterSoupを紹介する。
- 参考スコア(独自算出の注目度): 127.04370753583261
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretrained language models (PLMs) are trained on massive corpora, but often
need to specialize to specific domains. A parameter-efficient adaptation method
suggests training an adapter for each domain on the task of language modeling.
This leads to good in-domain scores but can be impractical for domain- or
resource-restricted settings. A solution is to use a related-domain adapter for
the novel domain at test time. In this paper, we introduce AdapterSoup, an
approach that performs weight-space averaging of adapters trained on different
domains. Our approach is embarrassingly parallel: first, we train a set of
domain-specific adapters; then, for each novel domain, we determine which
adapters should be averaged at test time. We present extensive experiments
showing that AdapterSoup consistently improves performance to new domains
without extra training. We also explore weight averaging of adapters trained on
the same domain with different hyper-parameters, and show that it preserves the
performance of a PLM on new domains while obtaining strong in-domain results.
We explore various approaches for choosing which adapters to combine, such as
text clustering and semantic similarity. We find that using clustering leads to
the most competitive results on novel domains.
- Abstract(参考訳): 事前訓練された言語モデル(PLM)は大量のコーパスで訓練されるが、しばしば特定のドメインに特化する必要がある。
パラメータ効率の良い適応方法は、言語モデリングのタスクで各ドメインのアダプタをトレーニングすることを提案する。
ドメイン内スコアは良好だが、ドメイン内設定やリソース制限設定では実用的ではない。
解決策は、テスト時に新しいドメインに関連ドメインアダプタを使用することである。
本稿では,異なるドメインでトレーニングされたアダプタの重み空間平均化を行う手法であるadaptersoupを提案する。
まず、ドメイン固有のアダプタのセットをトレーニングします。次に、新しいドメイン毎に、テスト時にどのアダプタを平均化すべきかを決定します。
本稿では、AdapterSoupが追加トレーニングなしで新しいドメインのパフォーマンスを継続的に改善することを示す広範な実験を示す。
また、異なるハイパーパラメータを持つ同じドメインでトレーニングされたアダプタの重量平均化についても検討し、新しいドメインでのplmのパフォーマンスを保ちつつ、強いドメイン内結果を得ることができることを示した。
テキストクラスタリングや意味的類似性など,どのアダプタを組み合わせるかを選択するためのさまざまなアプローチを検討する。
クラスタリングを使うことで、新しいドメイン上で最も競争力のある結果が得られます。
関連論文リスト
- Domain-Rectifying Adapter for Cross-Domain Few-Shot Segmentation [40.667166043101076]
多様なターゲットドメインスタイルをソースドメインに修正するための小さなアダプタを提案する。
アダプタは、さまざまな合成対象ドメインから画像特徴を修正して、ソースドメインと整合するように訓練される。
提案手法は,ドメイン間複数ショットセマンティックセマンティックセグメンテーションタスクにおいて有望な結果を得る。
論文 参考訳(メタデータ) (2024-04-16T07:07:40Z) - Plug-and-Play Transformer Modules for Test-Time Adaptation [54.80435317208111]
PLUTO: Plug-and-pLay modUlar Test-time Domain AdatiOn戦略を紹介する。
私たちは、それぞれ異なるソースドメインに特化した、大規模なモジュールセットを事前訓練します。
単一の推論コールで複数の最も関連性の高いソースドメインを利用する。
論文 参考訳(メタデータ) (2024-01-06T00:24:50Z) - Mixture-of-Domain-Adapters: Decoupling and Injecting Domain Knowledge to
Pre-trained Language Models Memories [31.995033685838962]
プレトレーニング言語モデル(PLM)は、特定のドメインで苦労しながら、ジェネリックドメインのテキストを理解する優れた能力を示す。
本稿では,数個のパラメータをチューニングするだけで,PLMを効果的かつ効率的に適用できるかどうかを検討する。
具体的には、トランスフォーマーアーキテクチャのフィードフォワードネットワーク(FFN)を、旧ドメインの知識を維持するためにトレーニング済みのFFNと、ドメイン固有の知識を並列に注入するための新しいドメイン固有のアダプタの2つに分割する。
論文 参考訳(メタデータ) (2023-06-08T17:54:36Z) - UDApter -- Efficient Domain Adaptation Using Adapters [29.70751969196527]
教師なし領域適応をより効率的にするための2つの手法を提案する。
最初のメソッドは、UDAを2段階のプロセスに分解する。
私たちは、完全なモデルパラメータのごく一部を微調整することで、自然言語推論タスクの0.85% F1以内です。
論文 参考訳(メタデータ) (2023-02-07T02:04:17Z) - $m^4Adapter$: Multilingual Multi-Domain Adaptation for Machine
Translation with a Meta-Adapter [128.69723410769586]
多言語ニューラルネットワーク翻訳モデル(MNMT)は、ドメインと言語ペアのデータに基づいて評価すると、最先端の性能が得られる。
ドメインシフトや新しい言語ペアへの変換にMNMTモデルを使用すると、パフォーマンスが劇的に低下する。
我々はメタラーニングとアダプタを用いたドメイン知識と言語知識を組み合わせた$m4Adapter$を提案する。
論文 参考訳(メタデータ) (2022-10-21T12:25:05Z) - Efficient Hierarchical Domain Adaptation for Pretrained Language Models [77.02962815423658]
生成言語モデルは、多種多様な一般的なドメインコーパスに基づいて訓練される。
計算効率のよいアダプタアプローチを用いて,ドメイン適応を多種多様なドメインに拡張する手法を提案する。
論文 参考訳(メタデータ) (2021-12-16T11:09:29Z) - Unsupervised Domain Adaptation with Adapter [34.22467238579088]
本稿では、教師なしドメイン適応のためのアダプタベースの微調整手法について検討する。
いくつかのトレーニング可能なアダプタモジュールがPrLMに挿入され、元のPrLMのパラメータを固定することで、組み込みの汎用知識が保持される。
2つのベンチマークデータセットに関する実験を行い、その結果、我々のアプローチが異なるタスク、データセットサイズ、ドメインの類似性に対して有効であることを実証した。
論文 参考訳(メタデータ) (2021-11-01T02:50:53Z) - Multilingual Domain Adaptation for NMT: Decoupling Language and Domain
Information with Adapters [66.7986513246294]
機械翻訳の文脈における言語とドメインアダプタの構成性について検討する。
部分的なリソースのシナリオでは、ドメイン固有のアダプタと言語固有のアダプタの組み合わせは、しばしば欠落した言語を破滅的に忘れてしまう。
論文 参考訳(メタデータ) (2021-10-18T18:55:23Z) - Non-Parametric Unsupervised Domain Adaptation for Neural Machine
Translation [61.27321597981737]
$k$NN-MTは、トレーニング済みニューラルネットワーク翻訳(NMT)モデルとドメイン固有のトークンレベルである$k$-nearest-neighbor検索を直接組み込むという有望な能力を示している。
対象言語におけるドメイン内単言語文を直接使用して,$k$-nearest-neighbor検索に有効なデータストアを構築する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-14T11:50:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。