論文の概要: Evaluating the Ability of Explanations to Disambiguate Models in a Rashomon Set
- arxiv url: http://arxiv.org/abs/2601.08703v1
- Date: Tue, 13 Jan 2026 16:31:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.286489
- Title: Evaluating the Ability of Explanations to Disambiguate Models in a Rashomon Set
- Title(参考訳): 羅生門集合における説明の曖昧化能力の評価
- Authors: Kaivalya Rawal, Eoin Delaney, Zihao Fu, Sandra Wachter, Chris Russell,
- Abstract要約: 本稿では,特徴重要説明の質を評価するために,説明評価の3つの原則と新しい手法"AXE"を提案する。
モデル説明と理想的根拠的真理的説明を比べた評価指標が,ラッショモン集合内の行動的差異を曖昧にしていることを示す。
- 参考スコア(独自算出の注目度): 10.788168368884804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Explainable artificial intelligence (XAI) is concerned with producing explanations indicating the inner workings of models. For a Rashomon set of similarly performing models, explanations provide a way of disambiguating the behavior of individual models, helping select models for deployment. However explanations themselves can vary depending on the explainer used, and need to be evaluated. In the paper "Evaluating Model Explanations without Ground Truth", we proposed three principles of explanation evaluation and a new method "AXE" to evaluate the quality of feature-importance explanations. We go on to illustrate how evaluation metrics that rely on comparing model explanations against ideal ground truth explanations obscure behavioral differences within a Rashomon set. Explanation evaluation aligned with our proposed principles would highlight these differences instead, helping select models from the Rashomon set. The selection of alternate models from the Rashomon set can maintain identical predictions but mislead explainers into generating false explanations, and mislead evaluation methods into considering the false explanations to be of high quality. AXE, our proposed explanation evaluation method, can detect this adversarial fairwashing of explanations with a 100% success rate. Unlike prior explanation evaluation strategies such as those based on model sensitivity or ground truth comparison, AXE can determine when protected attributes are used to make predictions.
- Abstract(参考訳): 説明可能な人工知能(XAI)は、モデルの内部動作を示す説明を作成することに関心がある。
同様のモデルを実行するRashomonセットに対して、説明は個々のモデルの振る舞いを曖昧にする方法を提供し、デプロイのための選択モデルを支援する。
しかし、説明そのものは使用する説明書によって異なり、評価する必要がある。
論文"Evaluating Model Explanations without Ground Truth"では,説明評価の3つの原則と,特徴重要説明の質を評価するための新しい手法"AXE"を提案した。
続いて、モデル説明と理想的根拠的真理を比べた評価指標が、羅生門集合内の振る舞いの違いを曖昧にしていることを示す。
提案した原則に沿った説明評価は,これらの違いを浮き彫りにして,羅生門集合からのモデル選択を支援する。
羅生門集合からの代替モデルの選択は、同一の予測を維持できるが、説明者が誤説明を発生させ、誤説明を高品質とみなす評価方法が誤認されている。
提案手法であるAXEは,100%の成功率で,この逆のフェアウォッシングを検出することができる。
モデル感度や地上の真実比較に基づくような事前の説明評価戦略とは異なり、AXEはいつ保護属性を使用して予測を行うかを決定することができる。
関連論文リスト
- Evaluating Model Explanations without Ground Truth [12.35100095333756]
本稿では,モデル説明の評価と比較を行うためのAXE(Agnostic eXplanation Evaluation framework)を提案する。
AXEは、比較のために理想的な地味な説明にアクセスする必要はなく、モデル感度に依存しています。
論文 参考訳(メタデータ) (2025-05-15T15:22:06Z) - On Generating Monolithic and Model Reconciling Explanations in Probabilistic Scenarios [46.24262986854885]
本稿では,確率論的モノリシックな説明とモデル整合的な説明を生成するための新しいフレームワークを提案する。
モノリシックな説明のために,本手法は確率論的論理を利用して不確実性を統合し,説明の確率を増大させる。
モデル整合性の説明のために,モデル整合性問題の論理に基づく変種を拡張し,確率的人間モデルを考慮したフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-29T16:07:31Z) - An Axiomatic Approach to Model-Agnostic Concept Explanations [67.84000759813435]
本稿では、線形性、再帰性、類似性という3つの自然な公理を満たす概念的説明へのアプローチを提案する。
次に、従来の概念的説明手法とのつながりを確立し、それらの意味の異なる意味についての洞察を提供する。
論文 参考訳(メタデータ) (2024-01-12T20:53:35Z) - BELLA: Black box model Explanations by Local Linear Approximations [10.71090921516854]
BELLAは回帰ブラックボックスモデルの個々の予測を説明するための決定論的モデルに依存しないポストホックアプローチである。
BELLAは、線形モデルが適用する近傍の大きさを最大化して、説明が正確で、単純で、一般的で、堅牢である。
論文 参考訳(メタデータ) (2023-05-18T21:22:23Z) - Explainability in Process Outcome Prediction: Guidelines to Obtain
Interpretable and Faithful Models [77.34726150561087]
本稿では、プロセス結果予測の分野における説明可能性モデルと説明可能性モデルの忠実性を通して、説明可能性を定義する。
本稿では,イベントログの仕様に基づいて適切なモデルを選択することのできる,X-MOPというガイドラインのセットを提案する。
論文 参考訳(メタデータ) (2022-03-30T05:59:50Z) - Evaluating Explanations for Reading Comprehension with Realistic
Counterfactuals [26.641834518599303]
本稿では,機械読解タスクの説明を評価する手法を提案する。
説明は、現実的な反現実的な入力シナリオのセットに関して、RCモデルのハイレベルな振る舞いを理解することを可能にします。
本分析は,トークンレベルの属性よりもRCに適していることを示す。
論文 参考訳(メタデータ) (2021-04-09T17:55:21Z) - Contrastive Explanations for Model Interpretability [77.92370750072831]
分類モデルの対照的説明を生成する手法を提案する。
本手法は潜在空間へのモデル表現の投影に基づいている。
本研究は,モデル決定のより正確できめ細かな解釈性を提供するためのラベルコントラスト的説明の能力に光を当てた。
論文 参考訳(メタデータ) (2021-03-02T00:36:45Z) - Evaluating Explanations: How much do explanations from the teacher aid
students? [103.05037537415811]
本研究では,説明が生徒の学習モデルを改善する程度を測る学生-教師パラダイムを用いて,説明の価値を定式化する。
説明を評価するための従来の提案とは異なり、我々のアプローチは容易にゲーム化できず、原則付き、スケーラブルで、属性の自動評価を可能にします。
論文 参考訳(メタデータ) (2020-12-01T23:40:21Z) - The Struggles of Feature-Based Explanations: Shapley Values vs. Minimal
Sufficient Subsets [61.66584140190247]
機能に基づく説明は、自明なモデルでも問題を引き起こすことを示す。
そこで本研究では,2つの一般的な説明書クラスであるシェープリー説明書と十分最小限の部分集合説明書が,基本的に異なる基底的説明書のタイプをターゲットにしていることを示す。
論文 参考訳(メタデータ) (2020-09-23T09:45:23Z) - Evaluations and Methods for Explanation through Robustness Analysis [117.7235152610957]
分析による特徴に基づく説明の新たな評価基準を確立する。
我々は、緩やかに必要であり、予測に十分である新しい説明を得る。
我々は、現在の予測をターゲットクラスに移動させる一連の特徴を抽出するために、説明を拡張します。
論文 参考訳(メタデータ) (2020-05-31T05:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。