論文の概要: Beyond Components: Singular Vector-Based Interpretability of Transformer Circuits
- arxiv url: http://arxiv.org/abs/2511.20273v1
- Date: Tue, 25 Nov 2025 12:59:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.464348
- Title: Beyond Components: Singular Vector-Based Interpretability of Transformer Circuits
- Title(参考訳): コンポーネントを超えて:変圧器回路の特異ベクトルに基づく解釈可能性
- Authors: Areeb Ahmad, Abhinav Joshi, Ashutosh Modi,
- Abstract要約: トランスフォーマーベースの言語モデルは複雑で分散した振る舞いを示すが、内部計算はあまり理解されていない。
既存の解釈可能性法は、注意頭と多層パーセプトロン層(MLP)を識別不能単位として扱い、その内部で学習された機能的サブ構造の可能性を見越す。
よりきめ細かい視点を導入し、これらの成分を特異な方向に分解し、重畳された独立な計算を1つのヘッドまたはメカニスティック内で明らかにする。
- 参考スコア(独自算出の注目度): 22.333229451408414
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Transformer-based language models exhibit complex and distributed behavior, yet their internal computations remain poorly understood. Existing mechanistic interpretability methods typically treat attention heads and multilayer perceptron layers (MLPs) (the building blocks of a transformer architecture) as indivisible units, overlooking possibilities of functional substructure learned within them. In this work, we introduce a more fine-grained perspective that decomposes these components into orthogonal singular directions, revealing superposed and independent computations within a single head or MLP. We validate our perspective on widely used standard tasks like Indirect Object Identification (IOI), Gender Pronoun (GP), and Greater Than (GT), showing that previously identified canonical functional heads, such as the name mover, encode multiple overlapping subfunctions aligned with distinct singular directions. Nodes in a computational graph, that are previously identified as circuit elements show strong activation along specific low-rank directions, suggesting that meaningful computations reside in compact subspaces. While some directions remain challenging to interpret fully, our results highlight that transformer computations are more distributed, structured, and compositional than previously assumed. This perspective opens new avenues for fine-grained mechanistic interpretability and a deeper understanding of model internals.
- Abstract(参考訳): トランスフォーマーベースの言語モデルは複雑で分散した振る舞いを示すが、内部計算はあまり理解されていない。
既存の機械的解釈可能性法は、典型的には注意頭と多層パーセプトロン層(MLP)を不可分単位として扱い、その内部で学んだ機能的サブ構造の可能性を見越す。
本研究では,これらの成分を直交特異方向へ分解し,重畳計算と独立計算を1つのヘッド(MLP)内で行うことを明らかにする。
Indirect Object Identification (IOI) や Gender Pronoun (GP) や Greater Than (GT) といった,広く使われている標準タスクに対する視点を検証し,従来同定されていた名前移動器のような標準関数ヘッドは,複数の重なり合うサブファンクションを特異な方向に沿って符号化することを示した。
以前回路要素として同定された計算グラフのノードは、特定の低ランク方向に沿って強い活性化を示し、意味のある計算がコンパクトな部分空間に存在することを示唆している。
いくつかの方向が完全に解釈するのは難しいが、我々の結果は、トランスフォーマーの計算が以前想定されていたよりも分散し、構造化され、構成的であることを強調している。
この観点は、きめ細かい機械的解釈性とモデル内部の深い理解のための新しい道を開く。
関連論文リスト
- On the Emergence of Induction Heads for In-Context Learning [121.64612469118464]
本研究では, 2層トランスにおいて以前に同定されたメカニズムである誘導ヘッドの出現について検討する。
最小限の ICL タスクの定式化と改良型トランスフォーマアーキテクチャを用いて,この構造の起源を説明する。
論文 参考訳(メタデータ) (2025-11-02T18:12:06Z) - Emergence of Minimal Circuits for Indirect Object Identification in Attention-Only Transformers [0.10152838128195467]
我々は、間接オブジェクト識別タスクのシンボリックバージョンにおいて、スクラッチから小さな注意のみのトランスフォーマーを訓練する。
2つのアテンションヘッドしか持たない単一層モデルは、残差と正規化層が欠如しているにもかかわらず、完全なIOI精度を達成する。
2層1頭モデルでは,問合せと問合せの相互作用を通じて,複数の層にまたがる情報を構成することで,同様の性能を実現する。
論文 参考訳(メタデータ) (2025-10-28T22:25:19Z) - Unlocking Out-of-Distribution Generalization in Transformers via Recursive Latent Space Reasoning [50.99796659680724]
本研究では,GSM8Kスタイルのモジュラー演算をテストベッドとして用いたTransformerネットワークにおけるアウト・オブ・ディストリビューション(OOD)の一般化について検討する。
我々は,OOD一般化の強化を目的とした4つのアーキテクチャ機構のセットを紹介し,検討する。
我々はこれらの実験結果を詳細な機械論的解釈可能性分析で補完し、これらのメカニズムがOOD一般化能力をいかに高めるかを明らかにする。
論文 参考訳(メタデータ) (2025-10-15T21:03:59Z) - On the Existence of Universal Simulators of Attention [17.01811978811789]
注意出力と基礎となる基本行列を同一に再現し、RASPを介してアクティベーション操作を行う方法を提案する。
我々の証明は、これまで学習によってのみ近似することが知られていたアルゴリズムによって達成可能なデータ非依存の解の存在を初めて示すものである。
論文 参考訳(メタデータ) (2025-06-23T15:15:25Z) - RiemannFormer: A Framework for Attention in Curved Spaces [0.43512163406552]
この研究は、トランスフォーマーベースのアーキテクチャのさらなる可能性を解き放つための洞察を提供する努力である。
主な動機の1つは、変圧器における注意機構の幾何学的解釈を提供することである。
論文 参考訳(メタデータ) (2025-06-09T03:56:18Z) - ComplexFormer: Disruptively Advancing Transformer Inference Ability via Head-Specific Complex Vector Attention [9.470124763460904]
本稿では,複雑多面的注意-CMHAを特徴とするコンプレックスフォーマーを紹介する。
CMHAは、複雑な平面内で統合された意味的および位置的差異を独立にモデル化する。
テストの結果、ComplexFormerは優れたパフォーマンスを実現し、生成パープレキシティを著しく低くし、長いコンテキストのコヒーレンスを改善した。
論文 参考訳(メタデータ) (2025-05-15T12:30:33Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - How Do Transformers Learn Topic Structure: Towards a Mechanistic
Understanding [56.222097640468306]
我々は、トランスフォーマーが「意味構造」を学ぶ方法の機械的理解を提供する
数学的解析とウィキペディアデータの実験を組み合わせることで、埋め込み層と自己保持層がトピック構造をエンコードしていることを示す。
論文 参考訳(メタデータ) (2023-03-07T21:42:17Z) - Inductive Biases and Variable Creation in Self-Attention Mechanisms [25.79946667926312]
この研究は自己アテンション加群の帰納バイアスの理論解析を提供する。
私たちの焦点は、どの関数と長距離依存関係を表現したいかを明確に決めることです。
我々の主な結果は、有界ノルムトランスフォーマー層がスパース変数を生成することを示している。
論文 参考訳(メタデータ) (2021-10-19T16:36:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。