論文の概要: IA2: Alignment with ICL Activations Improves Supervised Fine-Tuning
- arxiv url: http://arxiv.org/abs/2509.22621v1
- Date: Fri, 26 Sep 2025 17:46:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.622117
- Title: IA2: Alignment with ICL Activations Improves Supervised Fine-Tuning
- Title(参考訳): IA2: ICLアクティベーションとのアライメント改善
- Authors: Aayush Mishra, Daniel Khashabi, Anqi Liu,
- Abstract要約: In-Context Learning (ICL) は、インプロンプト内のインストラクションやデモによってモデルに適応する。
ICLとSFTは異なるアクティベーションパターンを生成し,異なる機能機構によって2つの手法が適応可能であることを示す。
ICL Activation Alignment (IA2) は、ICCの活性化パターンをSFTモデルで再現し、ICCのような内部推論をインセンティブ化する自己蒸留技術である。
- 参考スコア(独自算出の注目度): 42.543865253955666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Supervised Fine-Tuning (SFT) is used to specialize model behavior by training weights to produce intended target responses for queries. In contrast, In-Context Learning (ICL) adapts models during inference with instructions or demonstrations in the prompt. ICL can offer better generalizability and more calibrated responses compared to SFT in data scarce settings, at the cost of more inference compute. In this work, we ask the question: Can ICL's internal computations be used to improve the qualities of SFT? We first show that ICL and SFT produce distinct activation patterns, indicating that the two methods achieve adaptation through different functional mechanisms. Motivated by this observation and to use ICL's rich functionality, we introduce ICL Activation Alignment (IA2), a self-distillation technique which aims to replicate ICL's activation patterns in SFT models and incentivizes ICL-like internal reasoning. Performing IA2 as a priming step before SFT significantly improves the accuracy and calibration of model outputs, as shown by our extensive empirical results on 12 popular benchmarks and 2 model families. This finding is not only practically useful, but also offers a conceptual window into the inner mechanics of model adaptation.
- Abstract(参考訳): Supervised Fine-Tuning (SFT) は、クエリに対して対象とする応答を生成するために重みをトレーニングすることによって、モデル行動の専門化に使用される。
対照的に、In-Context Learning (ICL) はプロンプトのインストラクションやデモによる推論の間にモデルを適応させる。
ICLは、より推論計算のコストで、データ不足設定におけるSFTと比較して、より一般化性とよりキャリブレーションされた応答を提供することができる。
In this work, we asked the question: ICL's internal calculations can be used to improve the quality of SFT?
まず、ICLとSFTが異なるアクティベーションパターンを生成することを示し、その2つの手法が異なる機能機構によって適応できることを示す。
ICL Activation Alignment (IA2)は、ICLの活性化パターンをSFTモデルで再現し、ICLのような内部推論をインセンティブ化する自己蒸留技術である。
SFT以前のプライミングステップとしてIA2を実行することで、12のベンチマークと2つのモデルファミリーでの広範な実験結果から、モデル出力の精度とキャリブレーションが大幅に向上する。
この発見は実用的に有用であるだけでなく、モデル適応の内的力学に関する概念的な窓を提供する。
関連論文リスト
- Unlabeled Data Can Provably Enhance In-Context Learning of Transformers [6.129841115228296]
大規模言語モデル(LLM)は、印象的なインコンテキスト学習(ICL)能力を示すが、その予測の品質は基本的に制限されている。
本稿では,ラベルなし入力のブロックとともにラベル付きサンプルの小さなセットを含む新しい拡張ICLフレームワークを提案する。
これにより、ラベル付きデータとラベルなしデータの両方から暗黙的に有用な情報を抽出することができ、ICLの精度が向上する。
論文 参考訳(メタデータ) (2026-01-15T04:23:32Z) - Breaking the Limits of Open-Weight CLIP: An Optimization Framework for Self-supervised Fine-tuning of CLIP [60.025820738301434]
TuneCLIPはCLIPモデルの自己教師型微調整フレームワークである。
モデルアーキテクチャとスケールをまたいだパフォーマンスを継続的に改善します。
SigLIP (ViT-B/16) のような主要なオープンウェイトモデルが増加し、ImageNetと関連するアウト・オブ・ディストリビューション・ベンチマークで最大で2.5%向上した。
論文 参考訳(メタデータ) (2026-01-14T20:38:36Z) - Supervised Fine-Tuning or Contrastive Learning? Towards Better Multimodal LLM Reranking [56.46309219272326]
大型言語モデル(LLM)では、教師付き微調整(SFT)による分類は、関連する(非関連)ペアに対して'yes' (resp. ''no')トークンを予測する。
この分散は中心的な疑問を提起する:どの目的がLLMベースのリランクに本質的に適しているか、どのメカニズムが違いの根底にあるのか?
我々はCLとSFTの総合的な比較と分析を行い、ユニバーサルマルチモーダル検索(UMR)を実験場とした。
論文 参考訳(メタデータ) (2025-10-16T16:02:27Z) - Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z) - Corrective In-Context Learning: Evaluating Self-Correction in Large Language Models [0.0]
In-context Learning (ICL) は、大規模言語モデル (LLM) をNLPタスクに用いた。
有効性にもかかわらず、ICLは特に挑戦的な例でエラーを起こしやすい。
提案手法は,モデルの不正確な予測と地上の真偽の補正を併用する手法であるCICL(Corative In-Context Learning)を提案する。
論文 参考訳(メタデータ) (2025-03-20T10:39:39Z) - Technical Debt in In-Context Learning: Diminishing Efficiency in Long Context [13.796664304274643]
我々は、スタイル化された設定における学習アルゴリズムとして、ICLの最適性を定量化する新しいフレームワークを導入する。
ICLは最初,ベイズ最適推定器の効率と一致したが,その効率は長期に渡り著しく低下する。
これらの結果は、ICLを普遍的な問題解決手段として採用する際のトレードオフを明らかにし、新しい世代のオンザフライ適応手法を動機付けている。
論文 参考訳(メタデータ) (2025-02-07T00:26:45Z) - Deeper Insights Without Updates: The Power of In-Context Learning Over Fine-Tuning [22.341935761925892]
ファインチューニングとインコンテキスト学習(ICL)は、タスク固有の知識で大きな言語モデルを出力する2つの一般的な方法である。
暗黙的なパターンを持つタスクに対して、ICLはこれらのパターンを微調整よりもはるかによくキャプチャする。
論文 参考訳(メタデータ) (2024-10-07T02:12:22Z) - Investigating the Pre-Training Dynamics of In-Context Learning: Task Recognition vs. Task Learning [99.05401042153214]
In-context Learning(ICL)は、タスク認識(TR)とタスク学習(TL)の2つの主要な能力に起因する可能性がある。
ICLの出現の事前学習のダイナミクスを調べることで、第一歩を踏み出す。
そこで本研究では,この2つの機能を推論時によりよく統合するための,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-06-20T06:37:47Z) - Beyond Task Performance: Evaluating and Reducing the Flaws of Large
Multimodal Models with In-Context Learning [105.77733287326308]
我々は,3Bから80Bパラメータスケールまでの最近のオープンソースLMMを,幻覚,禁忌,構成性,説明可能性,指示に従う5つの異なる軸で評価した。
トレーニングフリーなインコンテキスト学習(ICL)をソリューションとして検討し、それがこれらの制限に与える影響について検討する。
ICL研究に基づき、ICLをさらに推し進め、Multitask-ICL、Chain-of-Hindsight-ICL、Self-Correcting-ICLといった新しい多モードICL変種を提案する。
論文 参考訳(メタデータ) (2023-10-01T12:02:59Z) - Self Contrastive Learning for Session-based Recommendation [16.69827431125858]
SCL(Self-Contrastive Learning)は、アイテム表現間の一様分布を直接促進する目的関数として定式化されている。
SCLは、統計的に重要な最先端モデルの性能を一貫して改善する。
論文 参考訳(メタデータ) (2023-06-02T04:43:21Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z) - Why Can GPT Learn In-Context? Language Models Implicitly Perform
Gradient Descent as Meta-Optimizers [93.9369467909176]
メタ最適化として言語モデルを説明し、文脈内学習を暗黙の微調整として理解する。
テキスト内学習は、複数の視点からの明示的な微調整と同様の振る舞いを示す。
バニラに対するパフォーマンスの向上は、別の観点からの理解をさらに後押しします。
論文 参考訳(メタデータ) (2022-12-20T18:58:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。