論文の概要: Disentangling Recall and Reasoning in Transformer Models through Layer-wise Attention and Activation Analysis
- arxiv url: http://arxiv.org/abs/2510.03366v1
- Date: Fri, 03 Oct 2025 04:13:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:58.936486
- Title: Disentangling Recall and Reasoning in Transformer Models through Layer-wise Attention and Activation Analysis
- Title(参考訳): 層ワイドアテンションとアクティベーション解析によるトランスフォーマーモデルの異方性リコールとリ共振
- Authors: Harshwardhan Fartale, Ashish Kattamuri, Rahul Raja, Arpita Vats, Ishita Prasad, Akshata Kishore Moharir,
- Abstract要約: モデル一般化の予測には推論からのリコールの排除が不可欠である。
我々は、制御された合成言語パズルのデータセットを使用して、層、頭、ニューロンレベルでトランスフォーマーモデルを探索する。
この結果から、リコールと推論は変換器モデルにおける分離可能だが相互作用する回路に依存しているという最初の因果的証拠が得られた。
- 参考スコア(独自算出の注目度): 3.1526281887627587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based language models excel at both recall (retrieving memorized facts) and reasoning (performing multi-step inference), but whether these abilities rely on distinct internal mechanisms remains unclear. Distinguishing recall from reasoning is crucial for predicting model generalization, designing targeted evaluations, and building safer interventions that affect one ability without disrupting the other.We approach this question through mechanistic interpretability, using controlled datasets of synthetic linguistic puzzles to probe transformer models at the layer, head, and neuron level. Our pipeline combines activation patching and structured ablations to causally measure component contributions to each task type. Across two model families (Qwen and LLaMA), we find that interventions on distinct layers and attention heads lead to selective impairments: disabling identified "recall circuits" reduces fact-retrieval accuracy by up to 15\% while leaving reasoning intact, whereas disabling "reasoning circuits" reduces multi-step inference by a comparable margin. At the neuron level, we observe task-specific firing patterns, though these effects are less robust, consistent with neuronal polysemanticity.Our results provide the first causal evidence that recall and reasoning rely on separable but interacting circuits in transformer models. These findings advance mechanistic interpretability by linking circuit-level structure to functional specialization and demonstrate how controlled datasets and causal interventions can yield mechanistic insights into model cognition, informing safer deployment of large language models.
- Abstract(参考訳): トランスフォーマーベースの言語モデルは、リコール(記憶された事実の検索)と推論(多段階推論の実行)の両方で優れているが、これらの能力が異なる内部メカニズムに依存しているかどうかは不明だ。
推論からのリコールの排除は,モデル一般化の予測,対象評価の設計,一方の能力に影響を与える安全な介入の構築に不可欠である。我々は,合成言語パズルの制御されたデータセットを用いて,階層,頭部,ニューロンレベルでのトランスフォーマーモデルを探索する機械的解釈可能性を通じて,この問題にアプローチする。
私たちのパイプラインはアクティベーションパッチと構造化アブリケーションを組み合わせて、各タスクタイプに対するコンポーネントコントリビューションを因果的に測定します。
識別された「リコール回路」の無効化は、推論をそのまま残しながら、事実検索精度を最大15倍まで低下させ、一方「推論回路」の無効化は、比較したマージンによるマルチステップ推論を減少させる。
ニューロンレベルでは、これらの効果はより堅牢ではなく、神経多面性に整合するが、我々の結果は、リコールと推論がトランスフォーマーモデルにおける分離可能だが相互作用する回路に依存する最初の因果的証拠となる。
これらの知見は、回路レベルの構造と機能的特殊化をリンクすることで機械的解釈可能性を高め、制御されたデータセットと因果的介入がモデル認知に対する機械的洞察をいかに生み出すかを示し、より大きな言語モデルのより安全な展開を示す。
関連論文リスト
- Selective Induction Heads: How Transformers Select Causal Structures In Context [50.09964990342878]
因果構造を扱うトランスフォーマーの能力を示す新しいフレームワークを提案する。
我々のフレームワークは、遷移確率を固定しつつ、ラグの異なるマルコフ鎖をインターリーブすることで因果構造を変化させる。
この設定は、コンテクスト内で正しい因果構造を選択できる新しい回路である選択誘導ヘッド(Selective induction Heads)を形成する。
論文 参考訳(メタデータ) (2025-09-09T23:13:41Z) - Causal Intervention Framework for Variational Auto Encoder Mechanistic Interpretability [0.0]
本稿では,変分オートエンコーダ(VAE)の機械的解釈性に対する包括的因果介入フレームワークを提案する。
VAEの「回路モチーフ」を識別・解析する手法を開発し、ネットワーク層を通して意味的要因がどのようにコード化され、処理され、そして切り離されているかを調べる。
その結果、我々の介入は機能回路の分離に成功し、計算グラフを意味因子の因果グラフにマッピングし、多意味単位と単意味単位を区別できることがわかった。
論文 参考訳(メタデータ) (2025-05-06T13:40:59Z) - Mechanistic Unveiling of Transformer Circuits: Self-Influence as a Key to Model Reasoning [9.795934690403374]
このような課題を解決するために言語モデルでどのような多段階推論機構が使われているのかはいまだ不明である。
回路解析と自己影響関数を用いて、推論過程を通して各トークンの変動の重要性を評価する。
提案手法は,モデルが使用する人間の解釈可能な推論過程を明らかにする。
論文 参考訳(メタデータ) (2025-02-13T07:19:05Z) - Counting in Small Transformers: The Delicate Interplay between Attention and Feed-Forward Layers [16.26331213222281]
我々は、ヒストグラムタスクに取り組む際に実装される単純なトランスフォーマーブロックの解を分析する。
このタスクは、予測性能、語彙と埋め込みサイズ、トークン混合機構、フィードフォワード層容量の間の複雑な相互作用を明らかにする。
論文 参考訳(メタデータ) (2024-07-16T09:48:10Z) - Understanding the Language Model to Solve the Symbolic Multi-Step Reasoning Problem from the Perspective of Buffer Mechanism [68.05754701230039]
本研究では,トランスフォーマーモデルにおける情報伝達機構を解明するために,シンボル的多段階推論タスクを構築する。
モデルの推論能力を高めるために,ランダムな行列に基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:41:26Z) - Interpretable Imitation Learning with Dynamic Causal Relations [65.18456572421702]
得られた知識を有向非巡回因果グラフの形で公開することを提案する。
また、この因果発見プロセスを状態依存的に設計し、潜在因果グラフのダイナミクスをモデル化する。
提案するフレームワークは,動的因果探索モジュール,因果符号化モジュール,予測モジュールの3つの部分から構成され,エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2023-09-30T20:59:42Z) - Causal Analysis for Robust Interpretability of Neural Networks [0.2519906683279152]
我々は、事前学習されたニューラルネットワークの因果効果を捉えるための頑健な介入に基づく手法を開発した。
分類タスクで訓練された視覚モデルに本手法を適用した。
論文 参考訳(メタデータ) (2023-05-15T18:37:24Z) - Towards Robust and Adaptive Motion Forecasting: A Causal Representation
Perspective [72.55093886515824]
本稿では,3つの潜伏変数群からなる動的過程として,運動予測の因果的形式化を導入する。
我々は、因果グラフを近似するために、不変なメカニズムやスタイルの共創者の表現を分解するモジュラーアーキテクチャを考案する。
合成および実データを用いた実験結果から,提案した3つの成分は,学習した動き表現の頑健性と再利用性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-11-29T18:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。