論文の概要: On the Emergence of Induction Heads for In-Context Learning
- arxiv url: http://arxiv.org/abs/2511.01033v1
- Date: Sun, 02 Nov 2025 18:12:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.038154
- Title: On the Emergence of Induction Heads for In-Context Learning
- Title(参考訳): インテクスト学習のための誘導ヘッドの創発について
- Authors: Tiberiu Musat, Tiago Pimentel, Lorenzo Noci, Alessandro Stolfo, Mrinmaya Sachan, Thomas Hofmann,
- Abstract要約: 本研究では, 2層トランスにおいて以前に同定されたメカニズムである誘導ヘッドの出現について検討する。
最小限の ICL タスクの定式化と改良型トランスフォーマアーキテクチャを用いて,この構造の起源を説明する。
- 参考スコア(独自算出の注目度): 121.64612469118464
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have become the dominant architecture for natural language processing. Part of their success is owed to a remarkable capability known as in-context learning (ICL): they can acquire and apply novel associations solely from their input context, without any updates to their weights. In this work, we study the emergence of induction heads, a previously identified mechanism in two-layer transformers that is particularly important for in-context learning. We uncover a relatively simple and interpretable structure of the weight matrices implementing the induction head. We theoretically explain the origin of this structure using a minimal ICL task formulation and a modified transformer architecture. We give a formal proof that the training dynamics remain constrained to a 19-dimensional subspace of the parameter space. Empirically, we validate this constraint while observing that only 3 dimensions account for the emergence of an induction head. By further studying the training dynamics inside this 3-dimensional subspace, we find that the time until the emergence of an induction head follows a tight asymptotic bound that is quadratic in the input context length.
- Abstract(参考訳): トランスフォーマーは自然言語処理の主要なアーキテクチャとなっている。
彼らの成功の一部は、インコンテキスト・ラーニング(ICL: In-context Learning)として知られる顕著な能力に起因している。
本研究では,インコンテキスト学習において特に重要である2層変圧器において,以前に同定されたメカニズムである誘導ヘッドの出現について検討する。
誘導ヘッドを実装した重み行列の比較的単純かつ解釈可能な構造を明らかにする。
我々は、最小限の ICL タスクの定式化と改良されたトランスフォーマーアーキテクチャを用いて、この構造の起源を理論的に説明する。
トレーニング力学がパラメータ空間の19次元部分空間に制約されたままであることの正式な証明を与える。
実験により,誘導ヘッドの出現は3次元のみであることを示すとともに,この制約を検証した。
この3次元部分空間内でのトレーニング力学のさらなる研究により、誘導ヘッドの出現までの時間は入力文脈長において二次的な厳密な漸近境界に従うことが分かる。
関連論文リスト
- Memory Limitations of Prompt Tuning in Transformers [45.158621811869466]
本研究では, 変圧器が記憶する情報量は, 即時長よりも高速に拡張できないことを示す。
また,大規模言語モデルで経験的に観察された現象,すなわち性能劣化の最初の公式な証明も提示する。
この発見は、トランスフォーマーアーキテクチャの本質的な制限に関する根本的な理解を提供する。
論文 参考訳(メタデータ) (2025-08-30T09:08:00Z) - What One Cannot, Two Can: Two-Layer Transformers Provably Represent Induction Heads on Any-Order Markov Chains [64.31313691823088]
インコンテキスト学習(ICL)は、入力コンテキストからの情報を活用することで、訓練されたモデルが新しいタスクに適応することを学習するトランスフォーマーの能力である。
1層に1つの頭を持つ2層トランスは、実際に任意の条件k-gramを表現可能であることを示す。
論文 参考訳(メタデータ) (2025-08-10T07:03:01Z) - Understanding In-Context Learning on Structured Manifolds: Bridging Attention to Kernel Methods [45.94152084965753]
我々は,アテンション機構と古典的カーネル手法の新たな接続を確立する。
トレーニングタスクの即時長と数の観点から一般化誤差境界を導出する。
この結果から, 一般化誤差がトレーニングタスク数でどのようにスケールするかを特徴付ける。
論文 参考訳(メタデータ) (2025-06-12T17:56:26Z) - Understanding In-context Learning of Addition via Activation Subspaces [73.8295576941241]
そこで本研究では,入力に整数$k$を追加するという真の予測規則を,数ショット学習タスクの構造化されたファミリについて検討する。
次に、次元の減少と分解を通じて、個々の頭部の詳細な分析を行う。
この結果から,前進パスを横断する局所化頭部の低次元部分空間の追跡が,言語モデルにおける微粒化計算構造に対する洞察を与えることを示す。
論文 参考訳(メタデータ) (2025-05-08T11:32:46Z) - Rethinking Associative Memory Mechanism in Induction Head [37.93644115914534]
本稿では,2層トランスフォーマーがコンテキスト内情報を網羅的に捕捉し,事前学習したビッグラム知識とバランスをとる方法について検討する。
本稿では,注目層における重み行列の表現と,変換器がビッグラムモデルによって生成されたプロンプトを付与した場合のロジットを理論的に解析する。
論文 参考訳(メタデータ) (2024-12-16T05:33:05Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - What is Intelligence? A Cycle Closure Perspective [6.0044467881527614]
我々は、トポロジカル閉包法に根ざした構造力学的説明について論じる。
textbfMemory-Amortized Inference (MAI) はSbS,$rightarrow$,CCUPを実装する計算機構であることを示す。
論文 参考訳(メタデータ) (2024-04-08T13:06:23Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。