論文の概要: Selective Induction Heads: How Transformers Select Causal Structures In Context
- arxiv url: http://arxiv.org/abs/2509.08184v1
- Date: Tue, 09 Sep 2025 23:13:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.265755
- Title: Selective Induction Heads: How Transformers Select Causal Structures In Context
- Title(参考訳): 選択的誘導ヘッド:コンテクストにおける変圧器の因果構造の選択方法
- Authors: Francesco D'Angelo, Francesco Croce, Nicolas Flammarion,
- Abstract要約: 因果構造を扱うトランスフォーマーの能力を示す新しいフレームワークを提案する。
我々のフレームワークは、遷移確率を固定しつつ、ラグの異なるマルコフ鎖をインターリーブすることで因果構造を変化させる。
この設定は、コンテクスト内で正しい因果構造を選択できる新しい回路である選択誘導ヘッド(Selective induction Heads)を形成する。
- 参考スコア(独自算出の注目度): 50.09964990342878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have exhibited exceptional capabilities in sequence modeling tasks, leveraging self-attention and in-context learning. Critical to this success are induction heads, attention circuits that enable copying tokens based on their previous occurrences. In this work, we introduce a novel framework that showcases transformers' ability to dynamically handle causal structures. Existing works rely on Markov Chains to study the formation of induction heads, revealing how transformers capture causal dependencies and learn transition probabilities in-context. However, they rely on a fixed causal structure that fails to capture the complexity of natural languages, where the relationship between tokens dynamically changes with context. To this end, our framework varies the causal structure through interleaved Markov chains with different lags while keeping the transition probabilities fixed. This setting unveils the formation of Selective Induction Heads, a new circuit that endows transformers with the ability to select the correct causal structure in-context. We empirically demonstrate that transformers learn this mechanism to predict the next token by identifying the correct lag and copying the corresponding token from the past. We provide a detailed construction of a 3-layer transformer to implement the selective induction head, and a theoretical analysis proving that this mechanism asymptotically converges to the maximum likelihood solution. Our findings advance the understanding of how transformers select causal structures, providing new insights into their functioning and interpretability.
- Abstract(参考訳): トランスフォーマーは、自己意図とコンテキスト内学習を活用したシーケンスモデリングタスクにおいて、例外的な能力を発揮してきた。
この成功に欠かせないのは誘導ヘッド、過去の出来事に基づいてトークンをコピーできるアテンション回路である。
本研究では,トランスフォーマーの因果構造を動的に扱う能力を示す新しいフレームワークを提案する。
既存の研究は、誘導ヘッドの形成を研究するためにマルコフ・チェインに依存しており、トランスフォーマーが因果依存性を捉え、コンテキスト内で遷移確率を学習する方法を明らかにしている。
しかし、それらは自然言語の複雑さを捉えるのに失敗する固定因果構造に依存しており、トークン間の関係は文脈によって動的に変化する。
この目的のために、我々のフレームワークは、遷移確率を固定しつつ、異なるラグを持つマルコフ鎖をインターリーブすることで因果構造を変化させる。
この設定は、コンテクスト内で正しい因果構造を選択できる新しい回路である選択誘導ヘッド(Selective induction Heads)を形成する。
我々は、変換器が次のトークンを予測するために、正しいラグを識別し、それに対応するトークンを過去からコピーすることで、このメカニズムを実証的に示す。
本稿では、選択的誘導ヘッドを実装するための3層トランスの詳細な構成と、この機構が漸近的に最大極大解に収束することを示す理論的解析について述べる。
本研究は,トランスフォーマーが因果構造をどのように選択するかの理解を深め,その機能と解釈可能性に関する新たな知見を提供する。
関連論文リスト
- What One Cannot, Two Can: Two-Layer Transformers Provably Represent Induction Heads on Any-Order Markov Chains [64.31313691823088]
インコンテキスト学習(ICL)は、入力コンテキストからの情報を活用することで、訓練されたモデルが新しいタスクに適応することを学習するトランスフォーマーの能力である。
1層に1つの頭を持つ2層トランスは、実際に任意の条件k-gramを表現可能であることを示す。
論文 参考訳(メタデータ) (2025-08-10T07:03:01Z) - Is Random Attention Sufficient for Sequence Modeling? Disentangling Trainable Components in the Transformer [15.196937229815445]
フリーズキーとクエリの重み付けによる注意は、言語モデリングにおいて競合的に機能することを示す。
また、完全にランダムなアテンションスコアを持つアーキテクチャであるMixiTを設計し、確実に安定した信号伝搬を実現した。
以上の結果から,トランスアーキテクチャは特殊回路形成に対する帰納バイアスが組み込まれていることが示唆された。
論文 参考訳(メタデータ) (2025-06-01T18:42:39Z) - On the Robustness of Transformers against Context Hijacking for Linear Classification [26.1838836907147]
Transformer-based Large Language Models (LLM) は、強力なコンテキスト内学習能力を実証している。
それらは、コンテキストハイジャックとして知られる、事実的に正しいコンテキストによって破壊される。
十分に訓練された深部変圧器は、経験的観測と整合した高い強靭性を実現することができることを示す。
論文 参考訳(メタデータ) (2025-02-21T17:31:00Z) - An explainable transformer circuit for compositional generalization [4.446278061385101]
小型変圧器における構成誘導の回路を同定し,機械的に解釈する。
因果解法を用いて回路を検証し,プログラムライクな記述を用いて動作を定式化する。
本研究は, 変圧器における複雑な挙動の理解を推し進め, モデル制御の直接的な経路を提供することができる。
論文 参考訳(メタデータ) (2025-02-19T02:30:41Z) - Enhancing Transformers for Generalizable First-Order Logical Entailment [51.04944136538266]
本稿では,変圧器の1次論理的推論能力をパラメータ化知識を用いて一般化する。
本稿では,一階述語論理エンターメントの性能を大幅に向上させる論理認識アーキテクチャTEGAを提案する。
論文 参考訳(メタデータ) (2025-01-01T07:05:32Z) - Strengthening Structural Inductive Biases by Pre-training to Perform Syntactic Transformations [75.14793516745374]
中間学習によりトランスフォーマーの構造的帰納バイアスを強化することを提案する。
実験の結果,チャンキングなどの構文的タスクのわずかな学習に有効であることが確認された。
分析の結果,中間的事前学習は,どのトークンにシナティクス変換を適用する必要があるかを追尾する注意を喚起することが明らかとなった。
論文 参考訳(メタデータ) (2024-07-05T14:29:44Z) - How Transformers Learn Causal Structure with Gradient Descent [44.31729147722701]
自己注意はトランスフォーマーが因果構造をエンコードすることを可能にする。
我々は、潜在因果構造を学習する必要があるコンテキスト内学習タスクを導入する。
我々は、文脈内学習タスクで訓練されたトランスフォーマーが、様々な因果構造を回復できることを示す。
論文 参考訳(メタデータ) (2024-02-22T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。