論文の概要: Position: Mechanistic Interpretability Must Disclose Identification Assumptions for Causal Claims
- arxiv url: http://arxiv.org/abs/2605.08012v1
- Date: Fri, 08 May 2026 17:01:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.224811
- Title: Position: Mechanistic Interpretability Must Disclose Identification Assumptions for Causal Claims
- Title(参考訳): 位置: 因果クレームの識別基準を開示する機械的解釈可能性
- Authors: Zezheng Lin, Fengming Liu,
- Abstract要約: 4つの方法論的ストランドにわたる10の論文のパーポーブ監査では、専用の識別・推定セクションは見つからない。
忠実性、完全性、単調性、アライメント、アブレーション効果などの検証基準は、それらを特定する仮定を述べることなく因果的支援として報告される。
クレームが因果的かどうか,識別戦略の命名,仮定の列挙,少なくとも1つのストレス,そして仮定が失敗すると結論がどう変わるかを説明する。
- 参考スコア(独自算出の注目度): 1.8219577154655007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mechanistic interpretability papers increasingly use causal vocabulary: circuits, mediators, causal abstraction, monosemanticity. Such claims require explicit identification assumptions. A purposive audit of 10 papers across four methodological strands finds no dedicated identification-assumptions section and a recurring pattern: validation metrics such as faithfulness, completeness, monosemanticity, alignment, or ablation effects are reported as causal support without stating the assumptions that make them identifying. A two-human-coder audit on $n=30$ reproduces the direction of the main finding: dedicated identification sections are absent, and validation-metric substitution is common, though exact Dim B/D counts are coding-rule sensitive. The paper proposes a disclosure norm: state whether the claim is causal, name the identification strategy, enumerate assumptions, stress at least one, and explain how conclusions shift if assumptions fail. Validation is not identification.
- Abstract(参考訳): 機械的解釈可能性に関する論文は、回路、仲介者、因果抽象化、単意味性といった因果語彙をますます用いている。
このような主張は明示的な特定の前提を必要とする。
信頼性、完全性、単調性、アライメント、アブレーション効果などの検証指標は、それらを特定する仮定を述べることなく、因果的支援として報告される。
n=30$の2人コーダ監査は、主発見の方向を再現する: 専用識別セクションがなく、バリデーションメトリックの置換が一般的であるが、正確なDim B/Dカウントはコーディングルールに敏感である。
クレームが因果的かどうか,識別戦略の命名,仮定の列挙,少なくとも1つのストレス,そして仮定が失敗すると結論がどう変わるかを説明する。
検証は識別ではない。
関連論文リスト
- AEGIS: From Clues to Verdicts -- Graph-Guided Deep Vulnerability Reasoning via Dialectics and Meta-Auditing [9.271196825503417]
大きな言語モデル(LLM)は、脆弱性検出にますます採用されているが、その推論は基本的には正しくない。
AEGISは、未解決の投機から、クローズドな事実ベース上の法医学的検証へ、検出をシフトする新しいマルチエージェントフレームワークである。
これは、主要なベースラインと比較して偽陽性率を最大54.40%削減し、1サンプルあたりの平均コストはタスク固有のトレーニングなしで0.09ドルである。
論文 参考訳(メタデータ) (2026-03-21T04:12:04Z) - Who Guards the Guardians? The Challenges of Evaluating Identifiability of Learned Representations [25.62598569130843]
データ生成プロセス(DGP)とエンコーダの両方に関する仮定を暗黙的に符号化していることを示す。
これらの仮定に違反すると、メトリクスは誤って特定され、体系的な偽陽性と偽陰性を生成する。
本稿では,DGP仮定をエンコーダ幾何から分離した分類法を導入し,既存のメトリクスの妥当性ドメインを特徴付けるとともに,再現性のあるストレステストと比較のための評価スイートをリリースする。
論文 参考訳(メタデータ) (2026-02-27T18:50:13Z) - Certified Learning under Distribution Shift: Sound Verification and Identifiable Structure [0.0]
$f$をディストリビューションでトレーニングされた予測子とし、シフトしたディストリビューションで$Q$を評価する。
検証可能な正則性と複雑性の制約の下では、シフトの余剰リスクは計算可能なシフト計量とモデルパラメータによって決定される明示的な上限を持つ。
我々は,(i)分布シフトのリスクを明示的な不等式によって証明し,(ii)学習モデルの検証は,非自明なサイズに対して健全であり,(iii)理解性は,ポストホックな説明よりも識別可能性の条件によって強制される,統一的な枠組みを開発する。
論文 参考訳(メタデータ) (2026-02-06T19:06:12Z) - Retrieval-Infused Reasoning Sandbox: A Benchmark for Decoupling Retrieval and Reasoning Capabilities [32.76303717104482]
DeR2(DeR2)は、ドキュメント基底推論を分離する制御されたディープ検索サンドボックスである。
DeR2は、推論から4つのレシエーション(命令のみ、概念のみ、関連のみ、フルセット)を通じてアクセスする証拠を分離する。
さまざまな最先端の基礎モデルに対する実験は、かなりのバリエーションと重要なヘッドルームを明らかにしている。
論文 参考訳(メタデータ) (2026-01-29T16:26:19Z) - Uncovering Hidden Correctness in LLM Causal Reasoning via Symbolic Verification [56.51953062869371]
DoVerifier は、因果表現が与えられた因果グラフから導出可能であるかどうかをdo-calculus と probability theory の規則を用いてチェックする記号検証器である。
因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果
論文 参考訳(メタデータ) (2026-01-29T03:22:58Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - Nested Counterfactual Identification from Arbitrary Surrogate
Experiments [95.48089725859298]
観測と実験の任意の組み合わせからネスト反事実の同定について検討した。
具体的には、任意のネストされた反事実を非ネストされたものへ写像できる反ファクト的非ネスト定理(英語版)(CUT)を証明する。
論文 参考訳(メタデータ) (2021-07-07T12:51:04Z) - AmbiFC: Fact-Checking Ambiguous Claims with Evidence [57.7091560922174]
実世界の情報ニーズから10kクレームを抽出したファクトチェックデータセットであるAmbiFCを提示する。
アンビFCの証拠に対する主張を比較する際に,曖昧さから生じる不一致を分析した。
我々は,このあいまいさをソフトラベルで予測するモデルを開発した。
論文 参考訳(メタデータ) (2021-04-01T17:40:08Z) - A Weaker Faithfulness Assumption based on Triple Interactions [89.59955143854556]
より弱い仮定として, 2$-adjacency faithfulness を提案します。
より弱い仮定の下で適用可能な因果発見のための音方向規則を提案する。
論文 参考訳(メタデータ) (2020-10-27T13:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。