論文の概要: Mechanistic Interpretability as Statistical Estimation: A Variance Analysis of EAP-IG
- arxiv url: http://arxiv.org/abs/2510.00845v2
- Date: Thu, 02 Oct 2025 11:16:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.567142
- Title: Mechanistic Interpretability as Statistical Estimation: A Variance Analysis of EAP-IG
- Title(参考訳): 統計的推定としての機械的解釈可能性:EAP-IGの変動解析
- Authors: Maxime Méloux, François Portet, Maxime Peyrard,
- Abstract要約: 我々は,回路探索などの解釈可能性の手法を統計的推定器とみなすべきであると論じている。
本稿では,最先端回路探索手法であるEAP-IGの系統的安定性解析を行う。
- 参考スコア(独自算出の注目度): 10.620784202716404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of trustworthy artificial intelligence requires moving beyond black-box performance metrics toward an understanding of models' internal computations. Mechanistic Interpretability (MI) aims to meet this need by identifying the algorithmic mechanisms underlying model behaviors. Yet, the scientific rigor of MI critically depends on the reliability of its findings. In this work, we argue that interpretability methods, such as circuit discovery, should be viewed as statistical estimators, subject to questions of variance and robustness. To illustrate this statistical framing, we present a systematic stability analysis of a state-of-the-art circuit discovery method: EAP-IG. We evaluate its variance and robustness through a comprehensive suite of controlled perturbations, including input resampling, prompt paraphrasing, hyperparameter variation, and injected noise within the causal analysis itself. Across a diverse set of models and tasks, our results demonstrate that EAP-IG exhibits high structural variance and sensitivity to hyperparameters, questioning the stability of its findings. Based on these results, we offer a set of best-practice recommendations for the field, advocating for the routine reporting of stability metrics to promote a more rigorous and statistically grounded science of interpretability.
- Abstract(参考訳): 信頼できる人工知能の開発には、ブラックボックスのパフォーマンス指標を超えて、モデルの内部計算を理解することが必要である。
機械的解釈可能性(MI)は、モデル行動の基礎となるアルゴリズムメカニズムを特定することによって、このニーズを満たすことを目的としている。
しかし、MIの科学的厳密さは、その発見の信頼性に依存している。
本研究では,回路探索などの解釈可能性の手法を,ばらつきや頑健さの問題を考慮し,統計的推定器とみなすべきであると論じる。
この統計的フレーミングを説明するために,最先端の回路探索手法であるEAP-IGの系統的安定性解析を行った。
入力再サンプリング, パラフレージング, ハイパーパラメータ変動, 因果解析自体のノイズ注入を含む, 制御された摂動の包括的スイートを用いて, そのばらつきと頑健さを評価する。
EAP-IGは,多種多様なモデルやタスクに対して,高パラメータに対して高い構造変化と感度を示し,その安定性に疑問を呈する。
これらの結果に基づき、我々は、より厳密で統計的に根ざした解釈可能性の科学を促進するために、安定性指標の定期的な報告を推奨する、この分野のベストプラクティス的勧告のセットを提供する。
関連論文リスト
- Internal Causal Mechanisms Robustly Predict Language Model Out-of-Distribution Behaviors [61.92704516732144]
正当性予測の最も堅牢な特徴は、モデルの振舞いに特徴的な因果的役割を果たすものであることを示す。
モデル出力の正しさを予測するために因果メカニズムを利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2025-05-17T00:31:39Z) - Breach in the Shield: Unveiling the Vulnerabilities of Large Language Models [13.216398753024182]
大規模言語モデル(LLMs)と視覚言語モデル(VLMs)は、幅広いタスクで素晴らしいパフォーマンスを実現しています。
本研究では,このような摂動の影響を受けやすいパラメータや入力次元を同定することにより,この脆弱性の原因を特定することを目的とする。
我々は、情報幾何学に根ざし、個々のパラメータと入力次元の感度を定量化する、textbfFI, textbf First order local textbfInfluence という安定性尺度を提案する。
論文 参考訳(メタデータ) (2025-03-28T16:23:59Z) - Predictability Analysis of Regression Problems via Conditional Entropy Estimations [1.8913544072080544]
回帰問題の予測可能性を評価するために,条件付きエントロピー推定器を開発した。
合成および実世界のデータセットの実験は、これらの推定器の堅牢性と有用性を示している。
論文 参考訳(メタデータ) (2024-06-06T07:59:19Z) - FUSE: Fast Unified Simulation and Estimation for PDEs [11.991297011923004]
同じフレームワーク内で両方の問題を解決することは、正確性と堅牢性において一貫した利益をもたらす可能性がある、と私たちは主張する。
本研究は,本手法の全身血行動態シミュレーションにおける連続的および離散的バイオマーカーの予測能力について述べる。
論文 参考訳(メタデータ) (2024-05-23T13:37:26Z) - The Risk of Federated Learning to Skew Fine-Tuning Features and
Underperform Out-of-Distribution Robustness [50.52507648690234]
フェデレートされた学習は、微調整された特徴をスキイングし、モデルの堅牢性を損なうリスクがある。
3つのロバスト性指標を導入し、多様なロバストデータセットで実験を行う。
提案手法は,パラメータ効率のよい微調整手法を含む多種多様なシナリオにまたがるロバスト性を著しく向上させる。
論文 参考訳(メタデータ) (2024-01-25T09:18:51Z) - Simulation-based Inference for Cardiovascular Models [43.55219268578912]
シミュレーションに基づく推論を用いて、波形をプラプシブルな生理的パラメータにマッピングする逆問題を解決する。
臨床応用5種類のバイオマーカーのin-silico不確実性解析を行った。
我々はMIMIC-III波形データベースを用いて,ビビオとシリカのギャップについて検討した。
論文 参考訳(メタデータ) (2023-07-26T02:34:57Z) - MAntRA: A framework for model agnostic reliability analysis [0.0]
時間依存型信頼性解析のための新しいモデルデータ駆動型信頼性解析フレームワークを提案する。
提案手法は、解釈可能な機械学習、ベイズ統計、動的方程式の同定を組み合わせたものである。
以上の結果から,提案手法の信頼性評価への応用の可能性が示唆された。
論文 参考訳(メタデータ) (2022-12-13T00:57:09Z) - Differential privacy and robust statistics in high dimensions [49.50869296871643]
高次元Propose-Test-Release (HPTR) は指数的メカニズム、頑健な統計、Propose-Test-Release メカニズムという3つの重要なコンポーネントの上に構築されている。
本論文では,HPTRが複数のシナリオで最適サンプル複雑性をほぼ達成していることを示す。
論文 参考訳(メタデータ) (2021-11-12T06:36:40Z) - Latent Causal Invariant Model [128.7508609492542]
現在の教師付き学習は、データ適合プロセス中に急激な相関を学習することができる。
因果予測を求める潜在因果不変モデル(LaCIM)を提案する。
論文 参考訳(メタデータ) (2020-11-04T10:00:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。