論文の概要: Hypothesis Class Determines Explanation: Why Accurate Models Disagree on Feature Attribution
- arxiv url: http://arxiv.org/abs/2603.15821v1
- Date: Mon, 16 Mar 2026 18:55:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:06.953619
- Title: Hypothesis Class Determines Explanation: Why Accurate Models Disagree on Feature Attribution
- Title(参考訳): 仮説クラスが説明を決定:なぜ正確なモデルが特徴帰属に影響を及ぼすのか
- Authors: Thackshanaramana B,
- Abstract要約: 同一の予測行動を持つモデルでは,特徴属性が著しく異なることが判明した。
我々は,この現象の構造的要因として仮説クラスを同定し,これを説明ロタリーと呼ぶ。
実験の結果,モデル選択は説明中立ではないことが明らかとなった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The assumption that prediction-equivalent models produce equivalent explanations underlies many practices in explainable AI, including model selection, auditing, and regulatory evaluation. In this work, we show that this assumption does not hold. Through a large-scale empirical study across 24 datasets and multiple model classes, we find that models with identical predictive behavior can produce substantially different feature attributions. This disagreement is highly structured: models within the same hypothesis class exhibit strong agreement, while cross-class pairs (e.g., tree-based vs. linear) trained on identical data splits show substantially reduced agreement, consistently near or below the lottery threshold. We identify hypothesis class as the structural driver of this phenomenon, which we term the Explanation Lottery. We theoretically show that the resulting Agreement Gap persists under interaction structure in the data-generating process. This structural finding motivates a post-hoc diagnostic, the Explanation Reliability Score R(x), which predicts when explanations are stable across architectures without additional training. Our results demonstrate that model selection is not explanation-neutral: the hypothesis class chosen for deployment can determine which features are attributed responsibility for a decision.
- Abstract(参考訳): 予測等価モデルが等価な説明を生み出すという仮定は、モデル選択、監査、規制評価など、説明可能なAIにおける多くのプラクティスの根底にある。
本研究では,この仮定が成立しないことを示す。
24のデータセットと複数のモデルクラスにわたる大規模な実証研究を通じて、同一の予測行動を持つモデルが、実質的に異なる特徴属性を生み出すことが判明した。
この不一致は極めて構造化されており、同じ仮説クラス内のモデルでは強い一致を示し、同じデータ分割に基づいて訓練されたクロスクラスペア(例:ツリーベース対線形)は、常に宝くじしきい値付近またはそれ以下である。
我々は,この現象の構造的要因として仮説クラスを同定し,これを説明ロタリーと呼ぶ。
理論的には、データ生成過程における相互作用構造の下で、結果のコンセンサスギャップが持続することを示す。
この構造的発見はポストホック診断である説明信頼性スコアR(x)を動機付け、追加のトレーニングなしでアーキテクチャ間で説明が安定していることを予測している。
実験の結果,モデル選択は説明中立ではないことが明らかとなった。
関連論文リスト
- From Black-box to Causal-box: Towards Building More Interpretable Models [57.23201263629627]
本稿では, 因果解釈可能性の概念を導入し, 特定のモデルのクラスから対実的クエリを評価できるときの形式化について述べる。
我々は、与えられたモデルアーキテクチャが与えられた偽物クエリをサポートするかどうかを決定する完全なグラフィカルな基準を導出する。
論文 参考訳(メタデータ) (2025-10-24T20:03:18Z) - Canonical Representations of Markovian Structural Causal Models: A Framework for Counterfactual Reasoning [0.7106986689736826]
「偽りの理性は、アリスがアスピリンを飲んだら回復しただろうか?」
本稿では,ある因果グラフモデルに適合する反ファクトを表現するために,構造因果モデルに対する代替手法を提案する。
本稿では,(通常テスト可能な)介入制約から(任意かつ不可能な)カウンターファクト選択を解き放つ正規化手順を提案する。
論文 参考訳(メタデータ) (2025-07-22T09:13:02Z) - Hard to Explain: On the Computational Hardness of In-Distribution Model Interpretation [0.9558392439655016]
機械学習(ML)モデルを解釈する能力はますます不可欠になりつつある。
近年の研究では、様々なモデルの意思決定を説明する計算複雑性を研究することにより、解釈可能性について正式に評価することが可能であることが示されている。
論文 参考訳(メタデータ) (2024-08-07T17:20:52Z) - Identifiable Latent Neural Causal Models [82.14087963690561]
因果表現学習は、低レベルの観測データから潜伏した高レベルの因果表現を明らかにすることを目指している。
因果表現の識別可能性に寄与する分布シフトのタイプを決定する。
本稿では,本研究の成果を実用的なアルゴリズムに翻訳し,信頼性の高い潜在因果表現の取得を可能にする。
論文 参考訳(メタデータ) (2024-03-23T04:13:55Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - Why do classifier accuracies show linear trends under distribution
shift? [58.40438263312526]
あるデータ分布上のモデルの精度は、別の分布上の精度のほぼ線形関数である。
2つのモデルが予測で一致する確率は、精度レベルだけで推測できるものよりも高いと仮定します。
分布シフトの大きさが大きければ, 2 つの分布のモデルを評価する場合, 線形傾向が生じなければならない。
論文 参考訳(メタデータ) (2020-12-31T07:24:30Z) - Structural Causal Models Are (Solvable by) Credal Networks [70.45873402967297]
因果推論は、干潟網の更新のための標準的なアルゴリズムによって得ることができる。
この貢献は, 干潟ネットワークによる構造因果モデルを表現するための体系的なアプローチと見なされるべきである。
実験により, 実規模問題における因果推論には, クレーダルネットワークの近似アルゴリズムがすぐに利用できることがわかった。
論文 参考訳(メタデータ) (2020-08-02T11:19:36Z) - Achieving Equalized Odds by Resampling Sensitive Attributes [13.114114427206678]
等価性の概念をほぼ満足する予測モデルを学習するためのフレキシブルなフレームワークを提案する。
この微分可能な関数は、モデルパラメータを等化奇数に向けて駆動するペナルティとして使用される。
本研究は,予測規則が本性質に反するか否かを検出するための公式な仮説テストを開発する。
論文 参考訳(メタデータ) (2020-06-08T00:18:34Z) - CausalVAE: Structured Causal Disentanglement in Variational Autoencoder [52.139696854386976]
変分オートエンコーダ(VAE)の枠組みは、観測から独立した因子をアンタングルするために一般的に用いられる。
本稿では, 因果内因性因子を因果内因性因子に変換する因果層を含むVOEベースの新しいフレームワークCausalVAEを提案する。
その結果、CausalVAEが学習した因果表現は意味論的に解釈可能であり、DAG(Directed Acyclic Graph)としての因果関係は精度良く同定された。
論文 参考訳(メタデータ) (2020-04-18T20:09:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。