論文の概要: Neutral Residues: Revisiting Adapters for Model Extension
- arxiv url: http://arxiv.org/abs/2410.02744v3
- Date: Thu, 31 Jul 2025 14:02:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 13:02:07.632745
- Title: Neutral Residues: Revisiting Adapters for Model Extension
- Title(参考訳): Neutral Residues: モデル拡張のためのアダプタの再検討
- Authors: Franck Signe Talla, Edouard Grave, Hervé Jégou,
- Abstract要約: 我々は、事前訓練済みの大規模言語モデルをトレーニング中に見られなかった新しいドメインに拡張する問題に対処する。
ファインチューニングやローランク適応(LoRA)といった標準技術はドメイン適応では成功したが、公式にはモデルにキャパシティを追加することはない。
ニュートラル残基は、新しい言語を学ぶことと、英語を忘れないこととのトレードオフの観点から、微調整、LoRA、バニラアダプターといった競合するアプローチを著しく上回った。
- 参考スコア(独自算出の注目度): 23.883342129314517
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the problem of extending a pretrained large language model to a new domain that was not seen during training. Standard techniques, such as finetuning or low-rank adaptation (LoRA) are successful at domain adaptation, but do not formally add capacity to the model. This often leads to a trade-off, between performing well on the new domain vs. degrading performance on the original domain. Here, we revisit and improve adapters to extend LLMs from three angles: data, architecture and training procedure, which are advantageously considered jointly. The resulting method, called neutral residues, modifies adapters in a way that leads each new residual block to output near-zeros on the original domain. This solution leads to strong results when adapting a state-of-the-art model originally trained on English to a new language. Neutral residues significantly outperform competing approaches such as finetuning, LoRA or vanilla adapters in terms of the trade-off between learning the new language and not forgetting English.
- Abstract(参考訳): 我々は、事前訓練された大規模言語モデルをトレーニング中に見られなかった新しいドメインに拡張する問題に対処する。
ファインチューニングやローランク適応(LoRA)といった標準技術はドメイン適応では成功したが、公式にはモデルにキャパシティを追加することはない。
これはしばしば、新しいドメインでうまく機能するか、元のドメインで性能を劣化させるかのトレードオフにつながる。
本稿では,LLMをデータ,アーキテクチャ,トレーニング手順の3つの角度から拡張するアダプタを再検討し,改良する。
結果、中性残基と呼ばれる手法は、それぞれの新しい残基ブロックを元のドメインでほぼゼロの出力に導く方法でアダプタを変更する。
このソリューションは、もともと英語でトレーニングされた最先端のモデルを新しい言語に適応させる際に、強い結果をもたらす。
ニュートラル残基は、新しい言語を学ぶことと、英語を忘れないこととのトレードオフの観点から、微調整、LoRA、バニラアダプターといった競合するアプローチを著しく上回った。
関連論文リスト
- Adaptation Odyssey in LLMs: Why Does Additional Pretraining Sometimes Fail to Improve? [19.34040322172224]
テキストドメイン上でモデルをトレーニングすることは、同じドメインのテスト部分において、その難易度を低下させる可能性があることを示す。
我々の発見は、いつモデルを適応するか、いつ基礎的な能力に頼るかを決める上で、私たちを導くでしょう。
論文 参考訳(メタデータ) (2024-10-08T00:37:16Z) - Mitigating Catastrophic Forgetting in Language Transfer via Model Merging [16.845734486667226]
ブランチ・アンド・マージ(BaM)は複数のモデルを反復的にマージする手法である。
BaMは、これが低等級であるがより高い品質の重量変化をもたらすという知見に基づいている。
ブルガリア語とドイツ語の実証研究において、BaMは、マッチングやターゲットドメインの性能の向上を伴いながら、忘れを著しく低減できることを示した。
論文 参考訳(メタデータ) (2024-07-11T17:32:40Z) - Extending Multilingual Machine Translation through Imitation Learning [60.15671816513614]
Imit-MNMTは、タスクを専門家の行動を模倣する模倣学習プロセスとして扱う。
提案手法は,新言語と原言語の翻訳性能を大幅に向上させることを示す。
我々はまた、我々のアプローチがコピーとオフターゲットの問題を解決することができることを示した。
論文 参考訳(メタデータ) (2023-11-14T21:04:03Z) - End-to-End Lip Reading in Romanian with Cross-Lingual Domain Adaptation
and Lateral Inhibition [2.839471733237535]
我々は、Wild LRRoと呼ばれる、表現不足の短いルーマニア語のデータセット上で、いくつかのアーキテクチャと最適化を解析する。
提案手法,すなわち,言語間ドメイン適応とラベルなしビデオを用いて,最先端の検索結果を得る。
また、神経阻害機構にインスパイアされた層を付加する性能も評価した。
論文 参考訳(メタデータ) (2023-10-07T15:36:58Z) - AdapterSoup: Weight Averaging to Improve Generalization of Pretrained
Language Models [127.04370753583261]
事前訓練された言語モデル(PLM)は、大規模なコーパスで訓練されるが、しばしば特定のドメインに特化する必要がある。
解決策は、テスト時に新しいドメインに関連ドメインアダプタを使用することである。
本稿では、異なるドメインでトレーニングされたアダプタの重量空間平均化を行うAdapterSoupを紹介する。
論文 参考訳(メタデータ) (2023-02-14T13:09:23Z) - Pre-Training a Graph Recurrent Network for Language Representation [34.4554387894105]
本稿では,言語モデルの事前学習のためのグラフリカレントネットワークについて考察し,各シーケンスのグラフ構造を局所的なトークンレベルの通信で構築する。
我々のモデルは、既存の注意に基づくモデルよりもコンテキスト化された特徴冗長性が少なく、より多様な出力を生成することができる。
論文 参考訳(メタデータ) (2022-09-08T14:12:15Z) - QAGAN: Adversarial Approach To Learning Domain Invariant Language
Features [0.76146285961466]
ドメイン不変の特徴を学習するための敵対的学習手法について検討する。
EMスコアが15.2%改善され、ドメイン外の検証データセットでF1スコアが5.6%向上しました。
論文 参考訳(メタデータ) (2022-06-24T17:42:18Z) - Continual Learning in Multilingual NMT via Language-Specific Embeddings [92.91823064720232]
共有語彙を小さな言語固有の語彙に置き換え、新しい言語の並列データに新しい埋め込みを微調整する。
元のモデルのパラメータは変更されていないため、初期言語の性能は劣化しない。
論文 参考訳(メタデータ) (2021-10-20T10:38:57Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - A Simple Baseline to Semi-Supervised Domain Adaptation for Machine
Translation [73.3550140511458]
State-of-the-art Neural Machine Translation (NMT)システムは、データハングリーであり、教師付きデータを持たない新しいドメインではパフォーマンスが良くない。
NMTの半教師付きドメイン適応シナリオに対する単純だが効果のあるアプローチを提案する。
このアプローチは、言語モデリング、バックトランスレーション、教師付き翻訳の3つのトレーニング目標を通じて、TransformerベースのNMTモデルを反復的にトレーニングする。
論文 参考訳(メタデータ) (2020-01-22T16:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。