Fugu-MT 論文翻訳(概要): Improving In-context Learning via Bidirectional Alignment

論文の概要: Improving In-context Learning via Bidirectional Alignment

arxiv url: http://arxiv.org/abs/2312.17055v1
Date: Thu, 28 Dec 2023 15:02:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-29 15:50:03.583173
Title: Improving In-context Learning via Bidirectional Alignment
Title（参考訳）: 双方向アライメントによる文脈内学習の改善
Authors: Chengwei Qin, Wenhan Xia, Fangkai Jiao, Shafiq Joty
Abstract要約: 大規模言語モデル(LLM)は、コンテキスト内学習(ICL)を通じて、多くのタスクにおいて印象的な数ショットの一般化を示している。その成功にもかかわらず、より大きなモデルのスケールと複雑さは、前例のないほど高い計算要求とデプロイメントの課題に繋がる。そこで本研究では,より小さなモデルのICL能力を向上させるために,ICL事例に対するモデルの好みを十分に活用するための双方向アライメント(Bidirectional Alignment, BiAlign)を提案する。
参考スコア（独自算出の注目度）: 34.920261933069
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have shown impressive few-shot generalization on many tasks via in-context learning (ICL). Despite their success in showing such emergent abilities, the scale and complexity of larger models also lead to unprecedentedly high computational demands and deployment challenges. In reaction, researchers explore transferring the powerful capabilities of larger models to more efficient and compact models by typically aligning the output of smaller models with that of larger models. Existing methods either train smaller models on the generated outputs of larger models or to imitate their token-level probability distributions. However, these distillation methods pay little to no attention to the input part, which also plays a crucial role in ICL. Based on the finding that the performance of ICL is highly sensitive to the selection of demonstration examples, we propose Bidirectional Alignment (BiAlign) to fully leverage the models' preferences for ICL examples to improve the ICL abilities of smaller models. Specifically, we introduce the alignment of input preferences between smaller and larger models by incorporating a novel ranking loss, in addition to aligning the token-level output distribution. With extensive experiments and analysis, we demonstrate that BiAlign can consistently outperform existing baselines on a variety of tasks including language understanding, reasoning, and coding.
Abstract（参考訳）: 大規模言語モデル (LLM) は、コンテキスト内学習 (ICL) を通じて、多くのタスクにおいて驚くべき数ショットの一般化を示している。このような突発的な能力を示すことに成功しているにもかかわらず、より大きなモデルの規模と複雑さは、前例のないほど高い計算要求と展開課題をもたらす。これに対して研究者は、より小さなモデルの出力をより大きなモデルに合わせることで、より効率的でコンパクトなモデルに、より大きなモデルの強力な能力の移行を探求している。既存の方法は、より小さなモデルをより大きなモデルの出力で訓練するか、トークンレベルの確率分布を模倣するかのどちらかである。しかし, これらの蒸留法は入力部にはほとんど注意を払わず, ICLにおいても重要な役割を担っている。 ICLの性能が実演例の選択に非常に敏感であることから,小型モデルのICL能力を向上させるために,ICLのモデル選択を十分に活用するための双方向アライメント(Bidirectional Alignment, BiAlign)を提案する。具体的には,トークンレベルの出力分布の調整に加えて,新たなランキング損失を取り入れることで,小モデルと大モデル間の入力嗜好のアライメントを導入する。広範な実験と分析により、BiAlignは言語理解、推論、コーディングなど、さまざまなタスクにおいて、既存のベースラインを一貫して上回ります。

関連論文リスト

Beyond In-Context Learning: Aligning Long-form Generation of Large Language Models via Task-Inherent Attribute Guidelines [71.14354526117958]
In-context Learning (ICL) は、事前訓練された大規模言語モデル(LLM)の重要かつ完全には理解されていない能力である。タスク言語とフォーマット特性をキャプチャする2つのガイドラインの並列ストリームを効率よく生成するLongGuideを提案する。 LongGuideはガイドラインの最良の組み合わせを自動的に選択し、ゼロショット設定と少数ショット設定の両方で、強力なオープンソースLLMとクローズドソースLLMの両方を5%以上改善する。
論文参考訳（メタデータ） (2025-06-02T02:35:24Z)
RADIOv2.5: Improved Baselines for Agglomerative Vision Foundation Models [60.596005921295806]
集約モデルは、ビジョンファウンデーションモデルをトレーニングするための強力なアプローチとして現れています。我々は、解像度モードシフト、教師の不均衡、慣用的教師アーティファクト、過剰な出力トークンなど、重要な課題を識別する。本稿では,マルチレゾリューショントレーニング,モザイク強化,教師の損失関数のバランスの改善など,いくつかの新しいソリューションを提案する。
論文参考訳（メタデータ） (2024-12-10T17:06:41Z)
Determine-Then-Ensemble: Necessity of Top-k Union for Large Language Model Ensembling [23.447466392929712]
大規模言語モデル(LLM)は、様々なタスクに様々な長所と短所を示す。既存のLLMアンサンブル法は、しばしばモデルの互換性を見落とし、確率の非効率なアライメントに苦しむ。 textscUnion textscTop-$k$ textscEnsembling (textscUniTE)は,各モデルから上位kトークンの結合に着目し,効率的にモデルを結合する新しいアプローチである。
論文参考訳（メタデータ） (2024-10-03T08:42:38Z)
Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。 OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文参考訳（メタデータ） (2024-09-19T07:05:26Z)
CollectiveSFT: Scaling Large Language Models for Chinese Medical Benchmark with Collective Instructions in Healthcare [12.218718086529462]
本研究は中国における総合医療ベンチマーク(CMB)に焦点を当てる。私たちは、より大きなモデルに匹敵するスコアを得るために、より小さなベースモデルをトレーニングしました。幅広い指導内容を統合することで,データ品質の不整合などの潜在的な問題に対処する。
論文参考訳（メタデータ） (2024-07-29T05:00:48Z)
LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文参考訳（メタデータ） (2024-07-28T06:10:47Z)
Why Larger Language Models Do In-context Learning Differently? [12.554356517949785]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)の重要な能力を備えた、AIの強力なツールとして登場した。最近の謎の観測では、異なるスケールのモデルが異なるICLの挙動を持つ可能性がある。
論文参考訳（メタデータ） (2024-05-30T01:11:35Z)
Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文参考訳（メタデータ） (2023-06-25T02:39:19Z)
Small Models are Valuable Plug-ins for Large Language Models [65.29370906766997]
GPT-3やGPT-4のような大きな言語モデル(LLM)は強力だが、その重み付けはしばしば一般には利用できない。我々は,局所的に微調整された小型モデルでブラックボックスLLMを動作させることができるSuper In-Context Learning (SuperICL)を提案する。
論文参考訳（メタデータ） (2023-05-15T17:59:01Z)
Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2023-03-13T16:00:31Z)
Prompt-Augmented Linear Probing: Scaling beyond the Limit of Few-shot In-Context Learners [25.262774179224945]
本稿では,線形探索とインコンテクスト学習のハイブリッドであるPALP(Properced-augmented linear probing)を提案する。 PALPは、データハングリーシナリオにおけるICL間のギャップを閉じる入力表現と、トレーニングオーバーヘッドの少ないデータバウンダントシナリオにおける微調整を大幅に強化する。
論文参考訳（メタデータ） (2022-12-21T09:37:05Z)
Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。異なるサイズの言語モデルは事前学習中にどのように学習するか? より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文参考訳（メタデータ） (2022-12-19T19:16:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。