論文の概要: Explanation Multiplicity in SHAP: Characterization and Assessment
- arxiv url: http://arxiv.org/abs/2601.12654v2
- Date: Sun, 25 Jan 2026 16:59:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 13:23:48.773181
- Title: Explanation Multiplicity in SHAP: Characterization and Assessment
- Title(参考訳): SHAPにおける説明多重性:評価と評価
- Authors: Hyunseung Hwang, Seungeun Lee, Lucas Rosenblatt, Steven Euijong Whang, Julia Stoyanovich,
- Abstract要約: ポストホックの説明は、貸付、雇用、医療といった高額な領域における自動決定を正当化し、議論し、レビューするために広く使われている。
しかし、実際にSHAPの説明は、個人、予測タスク、訓練されたモデルが固定された場合でも、繰り返し実行される間に大きく異なる可能性がある。
我々は、この現象の説明多重性の概念と命名、すなわち、同じ決定に対して複数の、内部的に有効な、実質的に異なる説明が存在すること。
- 参考スコア(独自算出の注目度): 28.413883186555438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-hoc explanations are widely used to justify, contest, and review automated decisions in high-stakes domains such as lending, employment, and healthcare. Among these methods, SHAP is often treated as providing a reliable account of which features mattered for an individual prediction and is routinely used to support recourse, oversight, and accountability. In practice, however, SHAP explanations can differ substantially across repeated runs, even when the individual, prediction task, and trained model are held fixed. We conceptualize and name this phenomenon explanation multiplicity: the existence of multiple, internally valid but substantively different explanations for the same decision. Explanation multiplicity poses a normative challenge for responsible AI deployment, as it undermines expectations that explanations can reliably identify the reasons for an adverse outcome. We present a comprehensive methodology for characterizing explanation multiplicity in post-hoc feature attribution methods, disentangling sources arising from model training and selection versus stochasticity intrinsic to the explanation pipeline. Furthermore, whether explanation multiplicity is surfaced depends on how explanation consistency is measured. Commonly used magnitude-based metrics can suggest stability while masking substantial instability in the identity and ordering of top-ranked features. To contextualize observed instability, we derive and estimate randomized baseline values under plausible null models, providing a principled reference point for interpreting explanation disagreement. Across datasets, model classes, and confidence regimes, we find that explanation multiplicity is widespread and persists even under highly controlled conditions, including high-confidence predictions. Thus explanation practices must be evaluated using metrics and baselines aligned with their intended societal role.
- Abstract(参考訳): ポストホックの説明は、貸付、雇用、医療といった高額な領域における自動決定を正当化し、議論し、レビューするために広く使われている。
これらの手法の中で、SHAPは個々の予測に重要な特徴の信頼性のある説明を提供するものとして扱われ、レコース、監視、説明責任をサポートするために日常的に使用される。
しかし、実際にSHAPの説明は、個人、予測タスク、訓練されたモデルが固定された場合でも、繰り返し実行される間に大きく異なる可能性がある。
我々は、この現象の説明多重性を概念化し、命名する:同じ決定に対して、複数の、内部的に有効な、実質的に異なる説明が存在すること。
説明の多重性は、責任あるAIデプロイメントに対して規範的な課題となり、説明が悪い結果の理由を確実に特定できるという期待を損なう。
本稿では, モデル学習と選択から生じる解離源と, 説明パイプラインに固有の確率性に対する解離源である, ポストホック特徴属性法における説明乗法を包括的に特徴付ける手法を提案する。
さらに、説明多重度が表面化されるか否かは、説明整合性の測定方法に依存する。
一般的に使用される等級ベースのメトリクスは、上位機能のアイデンティティと順序付けにおいてかなりの不安定さを隠蔽しながら、安定性を示唆することができる。
観測された不安定さを文脈的に把握するために、我々はプラプシブルヌルモデルの下でランダム化されたベースライン値を導出し、推定し、説明の不一致を解釈するための原則化された基準点を与える。
データセット、モデルクラス、信頼体制全体にわたって、説明重複性は広く、高信頼度予測を含む高度に制御された条件下でも持続する。
したがって、彼らの意図した社会的役割に沿ったメトリクスとベースラインを使用して、説明の実践を評価する必要がある。
関連論文リスト
- Towards Large Language Models with Self-Consistent Natural Language Explanations [11.085839471231552]
大きな言語モデル(LLM)は、解釈容易なパスを提供するようだ。
しかし、研究によると、これらのポストホックな説明は真の決定過程を誤って表現していることが多い。
論文 参考訳(メタデータ) (2025-06-09T08:06:33Z) - A Causal Lens for Evaluating Faithfulness Metrics [11.80379109128303]
因果診断(Causal Diagnosticity)は、自然言語の説明のための忠実度指標を評価するための共通のテストベッドとして機能するフレームワークである。
我々のフレームワークは診断の概念を採用し、モデル編集手法を用いて忠実で不誠実な説明ペアを生成する。
我々は,ポストホックな説明やチェーン・オブ・ソート・ベースの手法を含む,顕著な忠実度指標を評価した。
論文 参考訳(メタデータ) (2025-02-26T05:35:53Z) - Rethinking LLM Uncertainty: A Multi-Agent Approach to Estimating Black-Box Model Uncertainty [47.95943057892318]
ブラックボックスLSMの不確実性の定量化は、信頼性の高い応答とスケーラブルな監視に不可欠である。
本研究では,不確実性推定にマルチエージェント相互作用を用いた新しい理論的基礎手法であるDiverseAgentEntropyを紹介する。
論文 参考訳(メタデータ) (2024-12-12T18:52:40Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Bayesian Hierarchical Models for Counterfactual Estimation [12.159830463756341]
本稿では,多種多様なカウンターファクトの集合を推定する確率的パラダイムを提案する。
摂動を事前分布関数によるランダム変数として扱う。
収束特性の優れた勾配ベースサンプリング器は、後方サンプルを効率的に計算する。
論文 参考訳(メタデータ) (2023-01-21T00:21:11Z) - Shortcomings of Top-Down Randomization-Based Sanity Checks for
Evaluations of Deep Neural Network Explanations [67.40641255908443]
モデルランダム化に基づく正当性チェックの限界を,説明書の評価のために同定する。
トップダウンモデルランダム化は、フォワードパスアクティベーションのスケールを高い確率で保存する。
論文 参考訳(メタデータ) (2022-11-22T18:52:38Z) - An Additive Instance-Wise Approach to Multi-class Model Interpretation [53.87578024052922]
解釈可能な機械学習は、ブラックボックスシステムの特定の予測を駆動する要因に関する洞察を提供する。
既存の手法は主に、局所的な加法的あるいはインスタンス的なアプローチに従う説明的入力特徴の選択に重点を置いている。
本研究は,両手法の長所を生かし,複数の対象クラスに対する局所的な説明を同時に学習するためのグローバルフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-07T06:50:27Z) - Don't Explain Noise: Robust Counterfactuals for Randomized Ensembles [50.81061839052459]
我々は確率論的問題として、堅牢な対実的説明の生成を定式化する。
アンサンブルモデルのロバスト性とベース学習者のロバスト性との関係を示す。
本手法は, 反実的説明から初期観測までの距離をわずかに増加させるだけで, 高いロバスト性を実現する。
論文 参考訳(メタデータ) (2022-05-27T17:28:54Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - Do not explain without context: addressing the blind spot of model
explanations [2.280298858971133]
本稿では,機械学習モデルの監視と監査においてしばしば見落とされがちな盲点について述べる。
モデル説明の多くは参照データ分布の選択に直接的または間接的に依存する。
分布の小さな変化が、傾向の変化や、注意深い結論などの説明に劇的な変化をもたらす例を示す。
論文 参考訳(メタデータ) (2021-05-28T12:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。