論文の概要: Training In-Context and In-Weights Mixtures Via Contrastive Context Sampling
- arxiv url: http://arxiv.org/abs/2604.01601v1
- Date: Thu, 02 Apr 2026 04:21:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.266
- Title: Training In-Context and In-Weights Mixtures Via Contrastive Context Sampling
- Title(参考訳): コントラストコンテキストサンプリングによるインコンテキストとインウェイト混合のトレーニング
- Authors: Deeptanshu Malu, Deevyanshu Malu, Aditya Nemiwal, Sunita Sarawagi,
- Abstract要約: In-context Learning(ICL)とIn-weights Learning(IWL)を共同開発するトレーニング戦略について検討する。
対象の入力とコンテキストの例との類似性構造も重要な役割を担っていることを示す。
- 参考スコア(独自算出の注目度): 17.901170420482618
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate training strategies that co-develop in-context learning (ICL) and in-weights learning (IWL), and the ability to switch between them based on context relevance. Although current LLMs exhibit both modes, standard task-specific fine-tuning often erodes ICL, motivating IC-Train - fine-tuning with in-context examples. Prior work has shown that emergence of ICL after IC-Train depends on factors such as task diversity and training duration. In this paper we show that the similarity structure between target inputs and context examples also plays an important role. Random context leads to loss of ICL and IWL dominance, while only similar examples in context causes ICL to degenerate to copying labels without regard to relevance. To address this, we propose a simple Contrastive-Context which enforces two types of contrasts: (1) mix of similar and random examples within a context to evolve a correct form of ICL, and (2) varying grades of similarity across contexts to evolve ICL-IWL mixtures. We present insights on the importance of such contrast with theoretical analysis of a minimal model. We validate with extensive empirical evaluation on four LLMs and several tasks. Diagnostic probes confirm that contrasted contexts yield stable ICL-IWL mixtures, avoiding collapse into pure ICL, IWL, or copying.
- Abstract(参考訳): In-context Learning (ICL) と in-weights Learning (IWL) を共同開発するトレーニング戦略について検討し、文脈関連性に基づいてそれらの切り替えを行う能力について検討した。
現在のLLMには両方のモードがあるが、標準タスク固有の微調整はしばしばICを侵食し、IC-Trainを動機付けている。
IC-Train後のICLの出現は、タスクの多様性やトレーニング期間などの要因に依存する。
本稿では,ターゲット入力とコンテキストサンプルの類似性構造も重要な役割を担っていることを示す。
ランダムコンテキストは ICL と IWL の優位性を損なうが、コンテキストの類似した例だけが ICL を関連性によらずコピーに縮退させる。
そこで本研究では,(1)ICLの正しい形を進化させるために,文脈内で類似例とランダムな例を混合し,(2)ICC-IWL混合を進化させるために,コントラスト間の類似度の異なるグレードを,2種類のコントラストを強制する単純なコントラスト-コンテキストを提案する。
極小モデルの理論的解析とこのような対比の重要性について考察する。
4つのLCMと複数のタスクに対して広範囲な実験的評価を行った。
診断プローブは、コントラスト付きコンテキストが安定なICL-IWL混合物を生み出し、純粋なICL、IWL、コピーに崩壊しないことを確認した。
関連論文リスト
- Multimodal Contrastive In-Context Learning [0.9120312014267044]
本稿では,Large Language Models (LLMs) における勾配なしインコンテキスト学習 (ICL) の理解を高めるために,新しいマルチモーダルコントラスト型インコンテキスト学習フレームワークを提案する。
まず、実世界におけるICLの対照的な解釈を示し、ICLの差別化要因としてキー値表現の距離を示す。
第2に、実世界のデータセットに対するマルチモーダル入力フォーマットにおけるバイアスに対処する分析フレームワークを開発する。
第3に、ヘイトフルミームの検出の有効性を示すICLのオンザフライアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-23T10:10:01Z) - ICLEval: Evaluating In-Context Learning Ability of Large Language Models [68.7494310749199]
In-Context Learning (ICL) は大規模言語モデル(LLM)の重要な能力であり、相互接続された入力の理解と推論を可能にする。
既存の評価フレームワークは主に言語能力と知識に重点を置いており、しばしばICL能力の評価を見落としている。
LLMのICL能力を評価するためにICLEvalベンチマークを導入する。
論文 参考訳(メタデータ) (2024-06-21T08:06:10Z) - Investigating the Pre-Training Dynamics of In-Context Learning: Task Recognition vs. Task Learning [99.05401042153214]
In-context Learning(ICL)は、タスク認識(TR)とタスク学習(TL)の2つの主要な能力に起因する可能性がある。
ICLの出現の事前学習のダイナミクスを調べることで、第一歩を踏み出す。
そこで本研究では,この2つの機能を推論時によりよく統合するための,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-06-20T06:37:47Z) - Implicit In-context Learning [37.0562059811099]
Inlicit In-context Learning (I2CL)は、ICLの推論コストを最小限の情報損失でゼロショット学習に還元する革新的なパラダイムである。
I2CLはゼロショット推論コストで数ショットレベルのパフォーマンスを実現し、実演例のバリエーションに対して堅牢性を示す。
論文 参考訳(メタデータ) (2024-05-23T14:57:52Z) - Investigating the Learning Behaviour of In-context Learning: A
Comparison with Supervised Learning [67.25698169440818]
大規模言語モデル(LLM)は、文脈内学習(ICL)において顕著な能力を示している。
我々は、ICLと教師あり学習(SL)を通して、同じ実演例で同じLLMを訓練し、ラベル摂動下での性能を調査する。
まず、特に大規模言語モデルにおいて、ゴールドラベルがダウンストリーム・イン・コンテクストのパフォーマンスに大きな影響を与えることを発見した。
第2に、SLと比較すると、ICLはSLよりもラベル摂動に敏感で、モデルサイズが大きくなるにつれて徐々にSLに匹敵する性能が得られることが実証的に示される。
論文 参考訳(メタデータ) (2023-07-28T09:03:19Z) - In-Context Learning Learns Label Relationships but Is Not Conventional
Learning [60.891931501449726]
大規模言語モデルの文脈内学習(ICL)能力について、現時点では合意が得られていない。
ICLがラベル情報をどのように活用するかという新たな洞察を提供し、機能と制限の両方を明らかにします。
実験の結果, ICLの予測はコンテキスト内ラベルにほぼ常に依存しており, ICLはコンテキスト内における真に新しいタスクを学習できることがわかった。
論文 参考訳(メタデータ) (2023-07-23T16:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。