論文の概要: Improving In-context Learning via Bidirectional Alignment
- arxiv url: http://arxiv.org/abs/2312.17055v1
- Date: Thu, 28 Dec 2023 15:02:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 15:50:03.583173
- Title: Improving In-context Learning via Bidirectional Alignment
- Title(参考訳): 双方向アライメントによる文脈内学習の改善
- Authors: Chengwei Qin, Wenhan Xia, Fangkai Jiao, Shafiq Joty
- Abstract要約: 大規模言語モデル(LLM)は、コンテキスト内学習(ICL)を通じて、多くのタスクにおいて印象的な数ショットの一般化を示している。
その成功にもかかわらず、より大きなモデルのスケールと複雑さは、前例のないほど高い計算要求とデプロイメントの課題に繋がる。
そこで本研究では,より小さなモデルのICL能力を向上させるために,ICL事例に対するモデルの好みを十分に活用するための双方向アライメント(Bidirectional Alignment, BiAlign)を提案する。
- 参考スコア(独自算出の注目度): 34.920261933069
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown impressive few-shot generalization on
many tasks via in-context learning (ICL). Despite their success in showing such
emergent abilities, the scale and complexity of larger models also lead to
unprecedentedly high computational demands and deployment challenges. In
reaction, researchers explore transferring the powerful capabilities of larger
models to more efficient and compact models by typically aligning the output of
smaller models with that of larger models. Existing methods either train
smaller models on the generated outputs of larger models or to imitate their
token-level probability distributions. However, these distillation methods pay
little to no attention to the input part, which also plays a crucial role in
ICL. Based on the finding that the performance of ICL is highly sensitive to
the selection of demonstration examples, we propose Bidirectional Alignment
(BiAlign) to fully leverage the models' preferences for ICL examples to improve
the ICL abilities of smaller models. Specifically, we introduce the alignment
of input preferences between smaller and larger models by incorporating a novel
ranking loss, in addition to aligning the token-level output distribution. With
extensive experiments and analysis, we demonstrate that BiAlign can
consistently outperform existing baselines on a variety of tasks including
language understanding, reasoning, and coding.
- Abstract(参考訳): 大規模言語モデル (LLM) は、コンテキスト内学習 (ICL) を通じて、多くのタスクにおいて驚くべき数ショットの一般化を示している。
このような突発的な能力を示すことに成功しているにもかかわらず、より大きなモデルの規模と複雑さは、前例のないほど高い計算要求と展開課題をもたらす。
これに対して研究者は、より小さなモデルの出力をより大きなモデルに合わせることで、より効率的でコンパクトなモデルに、より大きなモデルの強力な能力の移行を探求している。
既存の方法は、より小さなモデルをより大きなモデルの出力で訓練するか、トークンレベルの確率分布を模倣するかのどちらかである。
しかし, これらの蒸留法は入力部にはほとんど注意を払わず, ICLにおいても重要な役割を担っている。
ICLの性能が実演例の選択に非常に敏感であることから,小型モデルのICL能力を向上させるために,ICLのモデル選択を十分に活用するための双方向アライメント(Bidirectional Alignment, BiAlign)を提案する。
具体的には,トークンレベルの出力分布の調整に加えて,新たなランキング損失を取り入れることで,小モデルと大モデル間の入力嗜好のアライメントを導入する。
広範な実験と分析により、BiAlignは言語理解、推論、コーディングなど、さまざまなタスクにおいて、既存のベースラインを一貫して上回ります。
関連論文リスト
- Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - CollectiveSFT: Scaling Large Language Models for Chinese Medical Benchmark with Collective Instructions in Healthcare [12.218718086529462]
本研究は中国における総合医療ベンチマーク(CMB)に焦点を当てる。
私たちは、より大きなモデルに匹敵するスコアを得るために、より小さなベースモデルをトレーニングしました。
幅広い指導内容を統合することで,データ品質の不整合などの潜在的な問題に対処する。
論文 参考訳(メタデータ) (2024-07-29T05:00:48Z) - LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - Why Larger Language Models Do In-context Learning Differently? [12.554356517949785]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)の重要な能力を備えた、AIの強力なツールとして登場した。
最近の謎の観測では、異なるスケールのモデルが異なるICLの挙動を持つ可能性がある。
論文 参考訳(メタデータ) (2024-05-30T01:11:35Z) - Small Models are Valuable Plug-ins for Large Language Models [65.29370906766997]
GPT-3やGPT-4のような大きな言語モデル(LLM)は強力だが、その重み付けはしばしば一般には利用できない。
我々は,局所的に微調整された小型モデルでブラックボックスLLMを動作させることができるSuper In-Context Learning (SuperICL)を提案する。
論文 参考訳(メタデータ) (2023-05-15T17:59:01Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Prompt-Augmented Linear Probing: Scaling beyond the Limit of Few-shot
In-Context Learners [25.262774179224945]
本稿では,線形探索とインコンテクスト学習のハイブリッドであるPALP(Properced-augmented linear probing)を提案する。
PALPは、データハングリーシナリオにおけるICL間のギャップを閉じる入力表現と、トレーニングオーバーヘッドの少ないデータバウンダントシナリオにおける微調整を大幅に強化する。
論文 参考訳(メタデータ) (2022-12-21T09:37:05Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。