論文の概要: Emergence of Minimal Circuits for Indirect Object Identification in Attention-Only Transformers
- arxiv url: http://arxiv.org/abs/2510.25013v1
- Date: Tue, 28 Oct 2025 22:25:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.81061
- Title: Emergence of Minimal Circuits for Indirect Object Identification in Attention-Only Transformers
- Title(参考訳): アテンションオンリー変圧器における間接物体識別のための最小回路の出現
- Authors: Rabin Adhikari,
- Abstract要約: 我々は、間接オブジェクト識別タスクのシンボリックバージョンにおいて、スクラッチから小さな注意のみのトランスフォーマーを訓練する。
2つのアテンションヘッドしか持たない単一層モデルは、残差と正規化層が欠如しているにもかかわらず、完全なIOI精度を達成する。
2層1頭モデルでは,問合せと問合せの相互作用を通じて,複数の層にまたがる情報を構成することで,同様の性能を実現する。
- 参考スコア(独自算出の注目度): 0.10152838128195467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mechanistic interpretability aims to reverse-engineer large language models (LLMs) into human-understandable computational circuits. However, the complexity of pretrained models often obscures the minimal mechanisms required for specific reasoning tasks. In this work, we train small, attention-only transformers from scratch on a symbolic version of the Indirect Object Identification (IOI) task -- a benchmark for studying coreference -- like reasoning in transformers. Surprisingly, a single-layer model with only two attention heads achieves perfect IOI accuracy, despite lacking MLPs and normalization layers. Through residual stream decomposition, spectral analysis, and embedding interventions, we find that the two heads specialize into additive and contrastive subcircuits that jointly implement IOI resolution. Furthermore, we show that a two-layer, one-head model achieves similar performance by composing information across layers through query-value interactions. These results demonstrate that task-specific training induces highly interpretable, minimal circuits, offering a controlled testbed for probing the computational foundations of transformer reasoning.
- Abstract(参考訳): 機械的解釈可能性(Mechanistic Interpretability)は、大きな言語モデル(LLM)を人間の理解可能な計算回路にリバースエンジニアリングすることを目的としている。
しかし、事前訓練されたモデルの複雑さは、特定の推論タスクに必要な最小限のメカニズムを曖昧にすることが多い。
本研究では、インダイレクトオブジェクト識別(IOI)タスクのシンボリックバージョン、例えばトランスフォーマーの推論など、小さな注意のみのトランスフォーマーをスクラッチからトレーニングする。
驚いたことに、2つの注意頭しか持たない単層モデルでは、MLPと正規化層が欠如しているにもかかわらず、完全なIOI精度が得られる。
残差ストリームの分解,スペクトル分析,埋め込み介入により,この2つのヘッドは,IOI分解を共同で実装する付加的かつコントラスト的なサブ回路に特化していることがわかった。
さらに,2層1頭モデルでは,問合せと問合せの相互作用を通じて,複数の層にまたがる情報を構成することにより,同様の性能が得られることを示す。
これらの結果から,タスク固有の学習は,高度に解釈可能な最小限の回路を誘導し,トランスフォーマー推論の計算基礎を探索するための制御されたテストベッドを提供することが示された。
関連論文リスト
- Optimality and NP-Hardness of Transformers in Learning Markovian Dynamical Functions [32.71332125930795]
トランスフォーマーアーキテクチャは、インコンテキスト学習(ICL)による所定のプロンプトにおける入出力ペアに基づいて、目に見えないタスクを解決できる
マルコフ関数学習の基盤となる最適化動作を明らかにするため,構造化ICL設定によるマルコフ関数学習について検討する。
論文 参考訳(メタデータ) (2025-10-21T13:42:48Z) - From Indirect Object Identification to Syllogisms: Exploring Binary Mechanisms in Transformer Circuits [5.1877231178075425]
本稿では,GPT-2小さめの2値真理値処理能力について,その振る舞いをシロジカル・プロンプトを用いて解析することによって検討する。
GPT-2の論理推論能力を機械的に説明できる複数の回路を同定する。
論文 参考訳(メタデータ) (2025-08-22T05:54:11Z) - What One Cannot, Two Can: Two-Layer Transformers Provably Represent Induction Heads on Any-Order Markov Chains [64.31313691823088]
インコンテキスト学習(ICL)は、入力コンテキストからの情報を活用することで、訓練されたモデルが新しいタスクに適応することを学習するトランスフォーマーの能力である。
1層に1つの頭を持つ2層トランスは、実際に任意の条件k-gramを表現可能であることを示す。
論文 参考訳(メタデータ) (2025-08-10T07:03:01Z) - Small transformer architectures for task switching [2.7195102129095003]
注意に基づくアーキテクチャが従来のアプローチより優れていると考えるのは簡単ではない。
標準変圧器は基本的タスク切替参照モデルでは解けないことを示す。
本研究では, トランス, 長期記憶再帰ネットワーク (LSTM) , 平板多層パーセプトロン (MLP) が類似しているが, 予測精度は緩やかであることを示す。
論文 参考訳(メタデータ) (2025-08-06T14:01:05Z) - How Transformers Learn Regular Language Recognition: A Theoretical Study on Training Dynamics and Implicit Bias [48.9399496805422]
我々は「偶対」と「パリティチェック」と呼ばれる正規言語認識のカテゴリにおける2つの代表的タスクに焦点をあてる。
我々のゴールは、注意層と線形層からなる一層トランスフォーマーが、これらの課題をいかに解決するかを探求することである。
論文 参考訳(メタデータ) (2025-05-02T00:07:35Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。