論文の概要: Bucketing the Good Apples: A Method for Diagnosing and Improving Causal Abstraction
- arxiv url: http://arxiv.org/abs/2605.02234v1
- Date: Mon, 04 May 2026 05:09:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.145458
- Title: Bucketing the Good Apples: A Method for Diagnosing and Improving Causal Abstraction
- Title(参考訳): 良いアップルを叩く:因果的抽象化の診断と改善方法
- Authors: Li Puyin, Jiyuan Tan, Ahmad Jabbar, Thomas Icard, Atticus Geiger,
- Abstract要約: 本稿では,提案する解釈が忠実な入力部分空間を同定し,ニューラルネットワークの解釈を診断する手法を提案する。
入力空間を相互交換・干渉の振る舞いに応じて、よく解釈された領域と非解釈された領域に分割することで、この枠組みを洗練する。
- 参考スコア(独自算出の注目度): 12.945075768474618
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a method for diagnosing interpretation in neural networks by identifying an input subspace where a proposed interpretation is highly faithful. Our method is particularly useful for causal-abstraction-style interpretability, where a high-level causal hypothesis is evaluated by interchange interventions. Rather than treating interchange intervention accuracy as a single global summary, we refine this framework by partitioning the input space into well-interpreted and under-interpreted regions according to pairwise interchange-intervention behavior. This turns causal abstraction from a purely global evaluation into a more diagnostic tool: it not only measures whether an interpretation works, but also reveals where it works, where it fails, and what distinguishes the two cases. This diagnostic view also provides practical heuristics for improving interpretations. By analyzing the structure of the well-interpreted and under-interpreted regions, we can identify missing distinctions in a high-level hypothesis, discover previously unmodeled intermediate variables, and combine complementary partial interpretations into a stronger one. We instantiate this idea as a simple four-step recipe and show that it yields informative error analyses across multiple causal abstraction settings. In a toy logic task, recursively applying the recipe recovers a high-level hypothesis from scratch. More broadly, our results suggest that partitioning the input space is a useful step toward more precise, constructive, and scalable mechanistic interpretability.
- Abstract(参考訳): 本稿では,提案する解釈が忠実な入力部分空間を同定し,ニューラルネットワークの解釈を診断する手法を提案する。
提案手法は,高次因果仮説を相互干渉により評価する因果解法として特に有用である。
相互干渉の精度を単一の大局的な要約として扱うのではなく、相互干渉の振る舞いに応じて、入力空間をよく解釈された領域と非解釈された領域に分割することで、この枠組みを洗練する。
これは因果的抽象化を、純粋にグローバルな評価から、より診断ツールに変える。解釈が機能するかどうかを測定するだけでなく、それが機能する場所、失敗する場所、そして2つのケースを区別するものを明らかにする。
この診断的視点は、解釈を改善するための実践的なヒューリスティックも提供する。
十分に解釈された領域と非解釈された領域の構造を解析することにより、高レベルでの仮説の欠如を識別し、以前にモデル化されていない中間変数を発見し、補的部分解釈をより強い変数に組み合わせることができる。
簡単な4段階のレシピとしてこのアイデアをインスタンス化し、複数の因果的抽象化設定にまたがって情報的誤り解析を行うことを示す。
おもちゃのロジックタスクでは、レシピを再帰的に適用することで、スクラッチから高レベルの仮説を回復する。
より広範に、我々の結果は入力空間の分割がより正確で建設的でスケーラブルな機械的解釈可能性に向けた有用なステップであることを示唆している。
関連論文リスト
- Causality is Key for Interpretability Claims to Generalise [35.833847356014154]
大規模言語モデル(LLM)の解釈可能性の研究は、モデル行動に関する重要な洞察をもたらした。
繰り返し発生する落とし穴: 一般化しない発見と、証拠を突破する因果解釈。
パールの因果的階層は、解釈可能性の研究が正当化できることを明確にする。
論文 参考訳(メタデータ) (2026-02-18T18:45:04Z) - Abstract Activation Spaces for Content-Invariant Reasoning in Large Language Models [28.102903742881576]
本稿では,構造的推論を語彙的意味論から明確に分離する抽象誘導推論フレームワークを提案する。
本稿では,抽象化整合型ステアリングがコンテンツ駆動型エラーを低減し,妥当性に敏感な性能を向上させることを示す。
論文 参考訳(メタデータ) (2026-02-02T18:48:44Z) - Schoenfeld's Anatomy of Mathematical Reasoning by Language Models [56.656180566692946]
我々は、Schoenfeldのエピソード理論を誘導型中間スケールレンズとして採用し、ThinkARM(モデルにおける推論の解剖学)を紹介する。
ThinkARMは、推論トレースを分析、探索、実装、検証などの機能的推論ステップに明示的に抽象化する。
エピソードレベルの表現は推論ステップを明確にし、現代の言語モデルにおける推論がどのように構造化され、安定化され、変更されるかの体系的な分析を可能にする。
論文 参考訳(メタデータ) (2025-12-23T02:44:25Z) - Towards Fine-Grained Interpretability: Counterfactual Explanations for Misclassification with Saliency Partition [50.68751788132789]
本稿では,オブジェクトレベルと部分レベルの両方の解釈可能性を生成する,ファクトファクトファクトの詳細な説明フレームワークを提案する。
本手法は, 類似性を定量化し, 成分の重み付けを行うことにより, 非生成的な説明可能な反事実を与える。
論文 参考訳(メタデータ) (2025-11-11T08:38:38Z) - InverseScope: Scalable Activation Inversion for Interpreting Large Language Models [5.670123459649656]
InverseScopeは、入力インバージョンを介して神経活性化を解釈するための仮定ライトでスケーラブルなフレームワークである。
高次元空間におけるサンプリングの非効率性に対処するために,新しい条件生成アーキテクチャを提案する。
また,サンプル入力上で計算された特徴整合率を用いて,解釈可能性仮説をテストする定量的評価プロトコルを導入する。
論文 参考訳(メタデータ) (2025-06-09T03:59:28Z) - How do Transformers Learn Implicit Reasoning? [67.02072851088637]
制御されたシンボリック環境下でトランスフォーマーをスクラッチからトレーニングすることで、暗黙のマルチホップ推論がどのように現れるかを研究する。
原子三重項によるトレーニングは必要ではなく学習を加速し,第2ホップの一般化は特定の構成構造へのクエリレベル露出に依存する。
論文 参考訳(メタデータ) (2025-05-29T17:02:49Z) - Counterfactual Realizability [52.85109506684737]
本稿では, 正規化可能性の定義, 分布からサンプルを抽出する能力を導入し, 任意の反事実分布が実現可能であるかどうかを判定する完全アルゴリズムを開発する。
本稿では、因果的公正さと因果的強化学習のモチベーション例を用いて、この新たな反ファクト的データ収集フレームワークの意義を説明する。
論文 参考訳(メタデータ) (2025-03-14T20:54:27Z) - Identifiable Latent Neural Causal Models [82.14087963690561]
因果表現学習は、低レベルの観測データから潜伏した高レベルの因果表現を明らかにすることを目指している。
因果表現の識別可能性に寄与する分布シフトのタイプを決定する。
本稿では,本研究の成果を実用的なアルゴリズムに翻訳し,信頼性の高い潜在因果表現の取得を可能にする。
論文 参考訳(メタデータ) (2024-03-23T04:13:55Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。