論文の概要: In-Context Learning Without Copying
- arxiv url: http://arxiv.org/abs/2511.05743v1
- Date: Fri, 07 Nov 2025 22:11:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.556647
- Title: In-Context Learning Without Copying
- Title(参考訳): コピーなしのインコンテキストラーニング
- Authors: Kerem Sahin, Sheridan Feucht, Adam Belfki, Jannik Brinkmann, Aaron Mueller, David Bau, Chris Wendler,
- Abstract要約: インダクティブコピーが抑制された場合,トランスフォーマーがコンテキスト内学習能力を獲得できるかどうかを検討する。
ハパックス(Hapax)は、誘導ヘッドによって正確に予測できる任意のトークンの損失寄与を省略する設定である。
力学解析により、Hapaxで訓練されたモデルは、より小さく弱い誘導ヘッドを発達するが、それでもICLの能力は維持されることが示された。
- 参考スコア(独自算出の注目度): 31.718993147344353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Induction heads are attention heads that perform inductive copying by matching patterns from earlier context and copying their continuations verbatim. As models develop induction heads, they often experience a sharp drop in training loss, a phenomenon cited as evidence that induction heads may serve as a prerequisite for more complex in-context learning (ICL) capabilities. In this work, we ask whether transformers can still acquire ICL capabilities when inductive copying is suppressed. We propose Hapax, a setting where we omit the loss contribution of any token that can be correctly predicted by induction heads. Despite a significant reduction in inductive copying, performance on abstractive ICL tasks (i.e., tasks where the answer is not contained in the input context) remains comparable and surpasses the vanilla model on 13 of 21 tasks, even though 31.7\% of tokens are omitted from the loss. Furthermore, our model achieves lower loss values on token positions that cannot be predicted correctly by induction heads. Mechanistic analysis further shows that models trained with Hapax develop fewer and weaker induction heads but still preserve ICL capabilities. Taken together, our findings indicate that inductive copying is not essential for learning abstractive ICL mechanisms.
- Abstract(参考訳): 誘導ヘッド(英: induction head)は、初期の文脈からパターンをマッチングし、その継続を冗長にコピーすることによって誘導的複製を行う注意ヘッドである。
モデルが誘導ヘッドを発達するにつれて、しばしば訓練損失の急激な減少を経験するが、これは誘導ヘッドがより複雑な文脈内学習(ICL)能力の前提条件となる証拠として引用される現象である。
本研究では、インダクティブコピーが抑制された場合、トランスフォーマーがICL機能を獲得できるかどうかを問う。
ハパックス(Hapax)は、誘導ヘッドによって正確に予測できる任意のトークンの損失寄与を省略する設定である。
インダクティブコピーの大幅な削減にもかかわらず、抽象的なICLタスクのパフォーマンス(すなわち、入力コンテキストに答えが含まれないタスク)は、その損失から31.7%のトークンが省略されているにもかかわらず、21タスクのうち13タスクのバニラモデルを超えている。
さらに,本モデルでは誘導ヘッドによって正確に予測できないトークン位置の損失値の低減を実現している。
メカニスティック解析により、Hapaxで訓練されたモデルは、より小さく弱い誘導ヘッドを発達するが、それでもICLの能力は維持されることが示された。
以上より,ICL機構の学習には帰納的複写が不可欠ではないことが示唆された。
関連論文リスト
- On the Emergence of Induction Heads for In-Context Learning [121.64612469118464]
本研究では, 2層トランスにおいて以前に同定されたメカニズムである誘導ヘッドの出現について検討する。
最小限の ICL タスクの定式化と改良型トランスフォーマアーキテクチャを用いて,この構造の起源を説明する。
論文 参考訳(メタデータ) (2025-11-02T18:12:06Z) - What Matters More For In-Context Learning under Matched Compute Budgets: Pretraining on Natural Text or Incorporating Targeted Synthetic Examples? [6.886536285117155]
本稿では、前向きコピー(インダクション)、後向きコピー(アンティ)、あるいはバランスの取れたミックスを事前学習ストリームに注入する軽量カリキュラムBi-Inductを紹介する。
我々は、0.13Bから1BのパラメータをイソFLOPでトレーニングし、 (i) 少数ショットICLベンチマーク、 (ii) ヘッドレベルテレメトリ、 (iii) 言語モデリングの難易度を評価した。
論文 参考訳(メタデータ) (2025-09-26T21:27:55Z) - Mitigating Copy Bias in In-Context Learning through Neuron Pruning [74.91243772654519]
大規模言語モデル(LLM)は、コンテキスト内学習能力に目を見張るものはほとんどない。
それらは、基礎となるパターンを学ぶ代わりに、提供された例から回答をコピーする。
このような複写バイアスを軽減するための,新しい簡易な手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T07:18:16Z) - Induction Heads as an Essential Mechanism for Pattern Matching in In-context Learning [12.911829891263263]
誘導ヘッドの最小アブレーションでもICL性能は抽象的パターン認識タスクで最大32%低下することを示す。
NLPタスクの場合、このアブレーションはモデルがサンプルから恩恵を受ける能力を大幅に低下させ、ゼロショットプロンプトに近い数ショットのICLパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2024-07-09T16:29:21Z) - Tripod: Three Complementary Inductive Biases for Disentangled Representation Learning [52.70210390424605]
本研究では,文献から選択した3つの帰納バイアスを持つニューラルネットワークオートエンコーダを提案する。
しかし、実際には、これらの帰納バイアスをインスタンス化する既存の技術を組み合わせることは、大きな利益をもたらすことに失敗する。
学習問題を単純化する3つの手法に適応し、不変性を安定化する鍵正則化項とクォーシュ縮退インセンティブを提案する。
結果のモデルであるTripodは、4つのイメージアンタングルメントベンチマークのスイートで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-16T04:52:41Z) - In-context Learning and Induction Heads [5.123049926855312]
インダクションヘッド(Induction Head)は、トークンシーケンスを完了するための単純なアルゴリズムを実装するアテンションヘッドである。
インテキスト学習能力の急激な増加に伴い, 誘導頭部は, ほぼ同程度に発達することがわかった。
論文 参考訳(メタデータ) (2022-09-24T00:43:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。