論文の概要: IA2: Alignment with ICL Activations Improves Supervised Fine-Tuning
- arxiv url: http://arxiv.org/abs/2509.22621v1
- Date: Fri, 26 Sep 2025 17:46:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.622117
- Title: IA2: Alignment with ICL Activations Improves Supervised Fine-Tuning
- Title(参考訳): IA2: ICLアクティベーションとのアライメント改善
- Authors: Aayush Mishra, Daniel Khashabi, Anqi Liu,
- Abstract要約: In-Context Learning (ICL) は、インプロンプト内のインストラクションやデモによってモデルに適応する。
ICLとSFTは異なるアクティベーションパターンを生成し,異なる機能機構によって2つの手法が適応可能であることを示す。
ICL Activation Alignment (IA2) は、ICCの活性化パターンをSFTモデルで再現し、ICCのような内部推論をインセンティブ化する自己蒸留技術である。
- 参考スコア(独自算出の注目度): 42.543865253955666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Supervised Fine-Tuning (SFT) is used to specialize model behavior by training weights to produce intended target responses for queries. In contrast, In-Context Learning (ICL) adapts models during inference with instructions or demonstrations in the prompt. ICL can offer better generalizability and more calibrated responses compared to SFT in data scarce settings, at the cost of more inference compute. In this work, we ask the question: Can ICL's internal computations be used to improve the qualities of SFT? We first show that ICL and SFT produce distinct activation patterns, indicating that the two methods achieve adaptation through different functional mechanisms. Motivated by this observation and to use ICL's rich functionality, we introduce ICL Activation Alignment (IA2), a self-distillation technique which aims to replicate ICL's activation patterns in SFT models and incentivizes ICL-like internal reasoning. Performing IA2 as a priming step before SFT significantly improves the accuracy and calibration of model outputs, as shown by our extensive empirical results on 12 popular benchmarks and 2 model families. This finding is not only practically useful, but also offers a conceptual window into the inner mechanics of model adaptation.
- Abstract(参考訳): Supervised Fine-Tuning (SFT) は、クエリに対して対象とする応答を生成するために重みをトレーニングすることによって、モデル行動の専門化に使用される。
対照的に、In-Context Learning (ICL) はプロンプトのインストラクションやデモによる推論の間にモデルを適応させる。
ICLは、より推論計算のコストで、データ不足設定におけるSFTと比較して、より一般化性とよりキャリブレーションされた応答を提供することができる。
In this work, we asked the question: ICL's internal calculations can be used to improve the quality of SFT?
まず、ICLとSFTが異なるアクティベーションパターンを生成することを示し、その2つの手法が異なる機能機構によって適応できることを示す。
ICL Activation Alignment (IA2)は、ICLの活性化パターンをSFTモデルで再現し、ICLのような内部推論をインセンティブ化する自己蒸留技術である。
SFT以前のプライミングステップとしてIA2を実行することで、12のベンチマークと2つのモデルファミリーでの広範な実験結果から、モデル出力の精度とキャリブレーションが大幅に向上する。
この発見は実用的に有用であるだけでなく、モデル適応の内的力学に関する概念的な窓を提供する。
関連論文リスト
- Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z) - Corrective In-Context Learning: Evaluating Self-Correction in Large Language Models [0.0]
In-context Learning (ICL) は、大規模言語モデル (LLM) をNLPタスクに用いた。
有効性にもかかわらず、ICLは特に挑戦的な例でエラーを起こしやすい。
提案手法は,モデルの不正確な予測と地上の真偽の補正を併用する手法であるCICL(Corative In-Context Learning)を提案する。
論文 参考訳(メタデータ) (2025-03-20T10:39:39Z) - Technical Debt in In-Context Learning: Diminishing Efficiency in Long Context [13.796664304274643]
我々は、スタイル化された設定における学習アルゴリズムとして、ICLの最適性を定量化する新しいフレームワークを導入する。
ICLは最初,ベイズ最適推定器の効率と一致したが,その効率は長期に渡り著しく低下する。
これらの結果は、ICLを普遍的な問題解決手段として採用する際のトレードオフを明らかにし、新しい世代のオンザフライ適応手法を動機付けている。
論文 参考訳(メタデータ) (2025-02-07T00:26:45Z) - Deeper Insights Without Updates: The Power of In-Context Learning Over Fine-Tuning [22.341935761925892]
ファインチューニングとインコンテキスト学習(ICL)は、タスク固有の知識で大きな言語モデルを出力する2つの一般的な方法である。
暗黙的なパターンを持つタスクに対して、ICLはこれらのパターンを微調整よりもはるかによくキャプチャする。
論文 参考訳(メタデータ) (2024-10-07T02:12:22Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z) - Why Can GPT Learn In-Context? Language Models Implicitly Perform
Gradient Descent as Meta-Optimizers [93.9369467909176]
メタ最適化として言語モデルを説明し、文脈内学習を暗黙の微調整として理解する。
テキスト内学習は、複数の視点からの明示的な微調整と同様の振る舞いを示す。
バニラに対するパフォーマンスの向上は、別の観点からの理解をさらに後押しします。
論文 参考訳(メタデータ) (2022-12-20T18:58:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。