論文の概要: Causally Grounded Mechanistic Interpretability for LLMs with Faithful Natural-Language Explanations
- arxiv url: http://arxiv.org/abs/2603.09988v1
- Date: Fri, 13 Feb 2026 04:11:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-15 16:38:22.530586
- Title: Causally Grounded Mechanistic Interpretability for LLMs with Faithful Natural-Language Explanations
- Title(参考訳): 忠実な自然言語説明を伴うLLMの因果的基盤力学解析可能性
- Authors: Ajay Pravin Mahale,
- Abstract要約: i)アクティベーションパッチによる因果的重要な注意ヘッドの同定、(ii)テンプレートベースとLCMベースの手法の両方を用いた説明、(iii)回路レベルの属性に適応したERASERスタイルのメトリクスによる忠実度の評価により、回路レベルの分析と自然言語による説明を橋渡しする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Mechanistic interpretability identifies internal circuits responsible for model behaviors, yet translating these findings into human-understandable explanations remains an open problem. We present a pipeline that bridges circuit-level analysis and natural language explanations by (i) identifying causally important attention heads via activation patching, (ii) generating explanations using both template-based and LLM-based methods, and (iii) evaluating faithfulness using ERASER-style metrics adapted for circuit-level attribution. We evaluate on the Indirect Object Identification (IOI) task in GPT-2 Small (124M parameters), identifying six attention heads accounting for 61.4% of the logit difference. Our circuit-based explanations achieve 100% sufficiency but only 22% comprehensiveness, revealing distributed backup mechanisms. LLM-generated explanations outperform template baselines by 64% on quality metrics. We find no correlation (r = 0.009) between model confidence and explanation faithfulness, and identify three failure categories explaining when explanations diverge from mechanisms.
- Abstract(参考訳): 機械的解釈可能性(Mechanistic Interpretability)は、モデル行動の原因となる内部回路を識別するが、これらの知見を人間の理解不能な説明に翻訳することは未解決の問題である。
回路レベルの解析と自然言語による説明を橋渡しするパイプラインを提案する。
一 アクティベーションパッチにより、因果的に重要な注意点を特定すること。
二 テンプレートベースの方法とLCMベースの方法の両方を用いて説明を作成すること。
三 回路レベルの属性に適応したERASER方式のメトリクスによる忠実度の評価。
GPT-2小 (124M パラメータ) における間接物体識別 (IOI) タスクについて検討し、ロジット差の61.4%を占める6つの注意ヘッドを同定した。
回路に基づく説明は100%十分であるが, 包括性は22%に過ぎず, 分散バックアップ機構が明らかとなった。
LLMの生成した説明は、品質指標でテンプレートベースラインを64%上回る。
モデル信頼度と説明忠実度の間に相関関係(r = 0.009)は見つからず、説明がメカニズムから分岐した時に説明される3つの失敗カテゴリを同定する。
関連論文リスト
- Verifying Large Language Models' Reasoning Paths via Correlation Matrix Rank [71.09032766271493]
大規模言語モデル (LLM) は誤りや幻覚を引き起こす傾向がある。
アウトプットを効果的かつ効率的にチェックする方法は、アプリケーションにとって重要な問題となっている。
論文 参考訳(メタデータ) (2025-10-28T11:01:10Z) - The Knowledge-Reasoning Dissociation: Fundamental Limitations of LLMs in Clinical Natural Language Inference [13.59675117792588]
大規模言語モデルは、データとパラメータをスケーリングすることで、ますます構造化され、一般化可能な内部表現を取得すると仮定されることが多い。
本研究は,4つの理性家族からなる臨床トライアル自然言語帰属ベンチマークを導入することで,この仮定を疑問視する。
各項目は、ターゲットとなるグラウンド知識とメタレベル推論検証プローブと組み合わせて、推論の失敗から事実アクセスの失敗を解離させる。
論文 参考訳(メタデータ) (2025-08-14T16:01:10Z) - How do Transformers Learn Implicit Reasoning? [67.02072851088637]
制御されたシンボリック環境下でトランスフォーマーをスクラッチからトレーニングすることで、暗黙のマルチホップ推論がどのように現れるかを研究する。
原子三重項によるトレーニングは必要ではなく学習を加速し,第2ホップの一般化は特定の構成構造へのクエリレベル露出に依存する。
論文 参考訳(メタデータ) (2025-05-29T17:02:49Z) - Self-Critique and Refinement for Faithful Natural Language Explanations [17.8004479689826]
本稿では,自然言語解説の自己批判と再定義について紹介する。
このフレームワークは、モデルが自身の説明の忠実さを改善することを可能にする。
SR-NLEは不誠実度を著しく低下させる。
論文 参考訳(メタデータ) (2025-05-28T20:08:42Z) - Evaluating the Reliability of Self-Explanations in Large Language Models [2.8894038270224867]
このような自己説明の2つのタイプ – 抽出的, 対実的 – を評価した。
以上の結果から,これらの自己説明は人間の判断と相関するが,モデルの決定過程を完全に的確に従わないことが明らかとなった。
このギャップを橋渡しできるのは, 反実的な説明をLCMに促すことによって, 忠実で, 情報的で, 容易に検証できる結果が得られるからである。
論文 参考訳(メタデータ) (2024-07-19T17:41:08Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Interpretability in the Wild: a Circuit for Indirect Object
Identification in GPT-2 small [68.879023473838]
間接オブジェクト識別 (IOI) と呼ばれる自然言語タスクにおいて, GPT-2 の小型化が果たす役割について解説する。
我々の知る限り、この調査は言語モデルにおいて「野生」の自然な振る舞いをリバースエンジニアリングする最大のエンドツーエンドの試みである。
論文 参考訳(メタデータ) (2022-11-01T17:08:44Z) - Explainability in Process Outcome Prediction: Guidelines to Obtain
Interpretable and Faithful Models [77.34726150561087]
本稿では、プロセス結果予測の分野における説明可能性モデルと説明可能性モデルの忠実性を通して、説明可能性を定義する。
本稿では,イベントログの仕様に基づいて適切なモデルを選択することのできる,X-MOPというガイドラインのセットを提案する。
論文 参考訳(メタデータ) (2022-03-30T05:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。