論文の概要: Improving In-context Learning via Bidirectional Alignment
- arxiv url: http://arxiv.org/abs/2312.17055v1
- Date: Thu, 28 Dec 2023 15:02:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 15:50:03.583173
- Title: Improving In-context Learning via Bidirectional Alignment
- Title(参考訳): 双方向アライメントによる文脈内学習の改善
- Authors: Chengwei Qin, Wenhan Xia, Fangkai Jiao, Shafiq Joty
- Abstract要約: 大規模言語モデル(LLM)は、コンテキスト内学習(ICL)を通じて、多くのタスクにおいて印象的な数ショットの一般化を示している。
その成功にもかかわらず、より大きなモデルのスケールと複雑さは、前例のないほど高い計算要求とデプロイメントの課題に繋がる。
そこで本研究では,より小さなモデルのICL能力を向上させるために,ICL事例に対するモデルの好みを十分に活用するための双方向アライメント(Bidirectional Alignment, BiAlign)を提案する。
- 参考スコア(独自算出の注目度): 34.920261933069
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown impressive few-shot generalization on
many tasks via in-context learning (ICL). Despite their success in showing such
emergent abilities, the scale and complexity of larger models also lead to
unprecedentedly high computational demands and deployment challenges. In
reaction, researchers explore transferring the powerful capabilities of larger
models to more efficient and compact models by typically aligning the output of
smaller models with that of larger models. Existing methods either train
smaller models on the generated outputs of larger models or to imitate their
token-level probability distributions. However, these distillation methods pay
little to no attention to the input part, which also plays a crucial role in
ICL. Based on the finding that the performance of ICL is highly sensitive to
the selection of demonstration examples, we propose Bidirectional Alignment
(BiAlign) to fully leverage the models' preferences for ICL examples to improve
the ICL abilities of smaller models. Specifically, we introduce the alignment
of input preferences between smaller and larger models by incorporating a novel
ranking loss, in addition to aligning the token-level output distribution. With
extensive experiments and analysis, we demonstrate that BiAlign can
consistently outperform existing baselines on a variety of tasks including
language understanding, reasoning, and coding.
- Abstract(参考訳): 大規模言語モデル (LLM) は、コンテキスト内学習 (ICL) を通じて、多くのタスクにおいて驚くべき数ショットの一般化を示している。
このような突発的な能力を示すことに成功しているにもかかわらず、より大きなモデルの規模と複雑さは、前例のないほど高い計算要求と展開課題をもたらす。
これに対して研究者は、より小さなモデルの出力をより大きなモデルに合わせることで、より効率的でコンパクトなモデルに、より大きなモデルの強力な能力の移行を探求している。
既存の方法は、より小さなモデルをより大きなモデルの出力で訓練するか、トークンレベルの確率分布を模倣するかのどちらかである。
しかし, これらの蒸留法は入力部にはほとんど注意を払わず, ICLにおいても重要な役割を担っている。
ICLの性能が実演例の選択に非常に敏感であることから,小型モデルのICL能力を向上させるために,ICLのモデル選択を十分に活用するための双方向アライメント(Bidirectional Alignment, BiAlign)を提案する。
具体的には,トークンレベルの出力分布の調整に加えて,新たなランキング損失を取り入れることで,小モデルと大モデル間の入力嗜好のアライメントを導入する。
広範な実験と分析により、BiAlignは言語理解、推論、コーディングなど、さまざまなタスクにおいて、既存のベースラインを一貫して上回ります。
関連論文リスト
- Mixtures of Experts Unlock Parameter Scaling for Deep RL [56.067378934033265]
本稿では,Mixture-of-Expert(MoE)モジュールを値ベースネットワークに組み込むことで,パラメータスケーラブルなモデルが得られることを示す。
この研究は、強化学習のためのスケーリング法則の開発に関する強力な実証的証拠を提供する。
論文 参考訳(メタデータ) (2024-02-13T17:18:56Z) - The Truth is in There: Improving Reasoning in Language Models with
Layer-Selective Rank Reduction [22.659005954676598]
重み行列の高次成分を選択的に除去することにより,大規模言語モデルの性能を大幅に向上させることができることを示す。
LAER(Layer-Selective Rank reduction)と呼ばれるこの単純な介入は、トレーニングが完了した後、モデル上で行うことができる。
言語モデルとデータセットにまたがって、この発見の汎用性を実証する広範な実験を示す。
論文 参考訳(メタデータ) (2023-12-21T03:51:08Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Small Models are Valuable Plug-ins for Large Language Models [65.29370906766997]
GPT-3やGPT-4のような大きな言語モデル(LLM)は強力だが、その重み付けはしばしば一般には利用できない。
我々は,局所的に微調整された小型モデルでブラックボックスLLMを動作させることができるSuper In-Context Learning (SuperICL)を提案する。
論文 参考訳(メタデータ) (2023-05-15T17:59:01Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Prompt-Augmented Linear Probing: Scaling beyond the Limit of Few-shot
In-Context Learners [25.262774179224945]
本稿では,線形探索とインコンテクスト学習のハイブリッドであるPALP(Properced-augmented linear probing)を提案する。
PALPは、データハングリーシナリオにおけるICL間のギャップを閉じる入力表現と、トレーニングオーバーヘッドの少ないデータバウンダントシナリオにおける微調整を大幅に強化する。
論文 参考訳(メタデータ) (2022-12-21T09:37:05Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - When Ensembling Smaller Models is More Efficient than Single Large
Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。
これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文 参考訳(メタデータ) (2020-05-01T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。