論文の概要: Generative Adapter: Contextualizing Language Models in Parameters with A Single Forward Pass
- arxiv url: http://arxiv.org/abs/2411.05877v1
- Date: Fri, 08 Nov 2024 00:42:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:13:15.559427
- Title: Generative Adapter: Contextualizing Language Models in Parameters with A Single Forward Pass
- Title(参考訳): Generative Adapter:1つの前方通過を持つパラメータにおける言語モデルの文脈化
- Authors: Tong Chen, Hao Fang, Patrick Xia, Xiaodong Liu, Benjamin Van Durme, Luke Zettlemoyer, Jianfeng Gao, Hao Cheng,
- Abstract要約: 大規模言語モデル(LM)は一般的に、新しい文脈におけるパフォーマンスを改善するために適応される。
微調整によってトレーニングコストが大幅に増加し、推論オーバーヘッドが増加する。
我々は、新しいコンテキストを低ランクLMアダプタに直接マッピングする効率的で効率的な適応手法である$GenerativeAdapter$を紹介した。
- 参考スコア(独自算出の注目度): 109.34230156454574
- License:
- Abstract: Large language models (LMs) are typically adapted to improve performance on new contexts (\eg text prompts that define new tasks or domains) through fine-tuning or prompting. However, there is an accuracy compute tradeoff -- fine-tuning incurs significant training cost and prompting increases inference overhead. We introduce $GenerativeAdapter$, an effective and efficient adaptation method that directly maps new contexts to low-rank LM adapters, thereby significantly reducing inference overhead with no need for finetuning. The adapter generator is trained via self-supervised learning, and can be used to adapt a single frozen LM for any new task simply by mapping the associated task or domain context to a new adapter. We apply $GenerativeAdapter$ to two pretrained LMs (Mistral-7B-Instruct and Llama2-7B-Chat) and evaluate the adapted models in three adaption scenarios: knowledge acquisition from documents, learning from demonstrations, and personalization for users. In StreamingQA, our approach is effective in injecting knowledge into the LM's parameters, achieving a 63.5% improvement in F1 score over the model with supervised fine-tuning (from $19.5$ to $31.5$) for contexts as long as 32K tokens. In the MetaICL in-context learning evaluation, our method achieves an average accuracy of $44.9$ across 26 tasks, outperforming the base model. On MSC, our method proves to be highly competitive in memorizing user information from conversations with a 4x reduction in computation and memory costs compared to prompting with full conversation history. Together, these results suggest that $GenerativeAdapter$ should allow for general adaption to a wide range of different contexts.
- Abstract(参考訳): 大規模言語モデル(LM)は、通常、微調整やプロンプトを通じて、新しいコンテキスト(新しいタスクやドメインを定義するテキストプロンプト)のパフォーマンスを改善するために適応される。
しかし、精度の高い計算トレードオフがある -- 微調整によってトレーニングコストが大幅に増加し、推論オーバーヘッドが増加する。
我々は$GenerativeAdapter$を紹介した。これは、新しいコンテキストを低ランクのLMアダプタに直接マッピングし、微調整を必要とせずに推論オーバーヘッドを大幅に削減する、効果的で効率的な適応手法である。
アダプタジェネレータは自己教師型学習によって訓練され、関連するタスクやドメインコンテキストを新しいアダプタにマッピングするだけで、新しいタスクに対して単一の凍結LMを適応させることができる。
我々は、事前訓練された2つのLM(Mistral-7B-InstructとLlama2-7B-Chat)に$GenerativeAdapter$を適用し、3つの適応シナリオにおいて適応モデルを評価する。
StreamingQAでは、私たちのアプローチはLMのパラメータに知識を注入するのに有効であり、32Kトークンのコンテキストに対して、教師付き微調整(19.5ドルから31.5ドル)でF1スコアを63.5%改善する。
テキスト内学習評価では,26タスクの平均精度は44.9ドルであり,ベースモデルよりも優れていた。
MSCでは,会話履歴の完全化よりも計算コストとメモリコストの4倍の削減による会話からユーザ情報を記憶する上で,高い競争力があることが証明された。
これらの結果は、$GenerativeAdapter$は幅広い異なるコンテキストへの一般的な適応を可能にするべきであることを示唆している。
関連論文リスト
- MerA: Merging Pretrained Adapters For Few-Shot Learning [71.44422347502409]
モデル融合により,事前学習したアダプタを単一モデルに効率的に組み込むことができるtextbftextttMerging Pretrained Adapters (MerA)を提案する。
2つのPLMの実験では、MerAはシングルアダプタとAdapterFusionの両方と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2023-08-30T12:10:17Z) - Evaluating Parameter-Efficient Transfer Learning Approaches on SURE
Benchmark for Speech Understanding [40.27182770995891]
ファインチューニングは、事前訓練されたモデルからのトランスファー学習のデフォルトアルゴリズムとして広く使われている。
本稿では,様々な音声処理タスクに対するパラメータ効率学習のための音声不確定評価(SURE)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-03-02T08:57:33Z) - CHAPTER: Exploiting Convolutional Neural Network Adapters for
Self-supervised Speech Models [62.60723685118747]
自己教師付き学習(SSL)は、ラベルのないデータから表現を学習するための強力な技術である。
特徴抽出器にCNNアダプタを適用し,SSL音声モデルに特化して設計された効率的なチューニング手法を提案する。
特徴抽出器にCNNを追加することで、感情や話者のタスクへの適応が促進されることを実証的に見出した。
論文 参考訳(メタデータ) (2022-12-01T08:50:12Z) - Multi-Head Adapter Routing for Cross-Task Generalization [56.75667096355806]
ポリトロポンは、事前訓練と少数ショット適応の両方の間、各タスクのアダプタのサブセットを選択するルーティング関数とアダプタのインベントリを学習する。
複数タスクの事前学習において、数ショットの適応よりもルーティングの方が有益であることがわかった。
論文 参考訳(メタデータ) (2022-11-07T19:35:55Z) - Efficient Adapter Transfer of Self-Supervised Speech Models for
Automatic Speech Recognition [0.1909808926064466]
wav2vec 2.0やHuBERTといったトランスフォーマーベースのモデルが、音声領域の分野をリードしている。
本稿では,wav2vec 2.0 へのアダプタの適用により,下流 ASR タスクに必要なパラメータ数を削減することを提案する。
論文 参考訳(メタデータ) (2022-02-07T14:20:54Z) - VL-Adapter: Parameter-Efficient Transfer Learning for
Vision-and-Language Tasks [71.40656211497162]
近年、大規模なテキストコーパスで事前訓練された微調整言語モデルにより、視覚と言語(V&L)タスクが大幅に改善されている。
本稿では,VL-BARTやVL-T5などのV&Lモデルに対して,アダプタに基づくパラメータ効率変換学習手法を提案する。
提案手法は, モデル全体の微調整性能に適合することを示した。
論文 参考訳(メタデータ) (2021-12-13T17:35:26Z) - Exploiting Adapters for Cross-lingual Low-resource Speech Recognition [52.40623653290499]
言語間の言語適応は、複数のリッチリソース言語を活用して低リソースターゲット言語のためのモデルを構築するという問題を解決することを目的としている。
パラメータ効率のよい言語間音声適応のための複数のアダプタの性能を調べるためのアダプタを提案する。
論文 参考訳(メタデータ) (2021-05-18T08:30:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。