論文の概要: Are We Merely Justifying Results ex Post Facto? Quantifying Explanatory Inversion in Post-Hoc Model Explanations
- arxiv url: http://arxiv.org/abs/2504.08919v1
- Date: Fri, 11 Apr 2025 19:00:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:54:36.412693
- Title: Are We Merely Justifying Results ex Post Facto? Quantifying Explanatory Inversion in Post-Hoc Model Explanations
- Title(参考訳): ポストファクトの単純な正当性は? : ポストホックモデル説明における説明反転の定量化
- Authors: Zhen Tan, Song Wang, Yifan Li, Yu Kong, Jundong Li, Tianlong Chen, Huan Liu,
- Abstract要約: ポストホックな説明法は、入力特徴に対する予測に起因する解釈を提供する。
これらの説明は、インプットとアウトプットの自然な関係を意図せずに逆転させるだろうか?
Inversion Quantification (IQ) は、説明が出力に依存する程度を定量化し、忠実なインプット・アウトプット関係から逸脱するフレームワークである。
- 参考スコア(独自算出の注目度): 87.68633031231924
- License:
- Abstract: Post-hoc explanation methods provide interpretation by attributing predictions to input features. Natural explanations are expected to interpret how the inputs lead to the predictions. Thus, a fundamental question arises: Do these explanations unintentionally reverse the natural relationship between inputs and outputs? Specifically, are the explanations rationalizing predictions from the output rather than reflecting the true decision process? To investigate such explanatory inversion, we propose Inversion Quantification (IQ), a framework that quantifies the degree to which explanations rely on outputs and deviate from faithful input-output relationships. Using the framework, we demonstrate on synthetic datasets that widely used methods such as LIME and SHAP are prone to such inversion, particularly in the presence of spurious correlations, across tabular, image, and text domains. Finally, we propose Reproduce-by-Poking (RBP), a simple and model-agnostic enhancement to post-hoc explanation methods that integrates forward perturbation checks. We further show that under the IQ framework, RBP theoretically guarantees the mitigation of explanatory inversion. Empirically, for example, on the synthesized data, RBP can reduce the inversion by 1.8% on average across iconic post-hoc explanation approaches and domains.
- Abstract(参考訳): ポストホックな説明法は、入力特徴に対する予測に起因する解釈を提供する。
自然な説明は、入力がどのように予測に繋がるかを解釈することが期待されている。
これらの説明は、インプットとアウトプットの自然な関係を意図せずに逆転させるのか?
具体的には、真の決定過程を反映するのではなく、アウトプットから予測を合理化する説明ですか?
このような説明的インバージョンを調べるために,説明が出力に依存する程度を定量化し,忠実なインプット・アウトプット関係から逸脱するフレームワークである逆量子化(IQ)を提案する。
このフレームワークを用いて、LIMEやSHAPなどの手法が広く使われている合成データセットについて、特に表、画像、テキストドメイン間での急激な相関が存在する場合、その逆転の傾向を示す。
最後に、フォワード摂動チェックを統合したポストホックな説明法に対するシンプルでモデルに依存しない拡張であるReproduce-by-Poking (RBP)を提案する。
さらに, IQ の枠組みの下では, RBP が説明反転の緩和を理論的に保証していることを示す。
経験的に、例えば合成されたデータに基づいて、RBPは象徴的なポストホックな説明手法やドメインを平均1.8%削減することができる。
関連論文リスト
- Selective Explanations [14.312717332216073]
機械学習モデルは、1つの推論だけで特徴属性スコアを予測するために訓練される。
その効率にもかかわらず、償却された説明者は不正確な予測や誤解を招く説明を生み出すことができる。
そこで本稿では,低品質な説明文を生成する際の特徴帰属手法である選択的説明文を提案する。
論文 参考訳(メタデータ) (2024-05-29T23:08:31Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - Uncertainty Quantification for Gradient-based Explanations in Neural Networks [6.9060054915724]
ニューラルネットワークの説明の不確実性を確認するパイプラインを提案する。
このパイプラインを使用して、CIFAR-10、FER+、California Housingデータセットの説明分布を生成する。
修正画素挿入/削除のメトリクスを計算し、生成した説明の質を評価する。
論文 参考訳(メタデータ) (2024-03-25T21:56:02Z) - Explaining Predictive Uncertainty by Exposing Second-Order Effects [13.83164409095901]
本稿では,2次効果に基づく予測不確実性を説明する新しい手法を提案する。
提案手法は一般に適用可能であり,一般的な帰属手法を強力な二次不確実性説明器に変換することができる。
論文 参考訳(メタデータ) (2024-01-30T21:02:21Z) - Counterfactuals of Counterfactuals: a back-translation-inspired approach
to analyse counterfactual editors [3.4253416336476246]
我々は、反事実的、対照的な説明の分析に焦点をあてる。
本稿では,新しい逆翻訳に基づく評価手法を提案する。
本研究では, 予測モデルと説明モデルの両方の振る舞いについて, 反事実を反復的に説明者に与えることで, 価値ある洞察を得ることができることを示す。
論文 参考訳(メタデータ) (2023-05-26T16:04:28Z) - Abductive Commonsense Reasoning Exploiting Mutually Exclusive
Explanations [118.0818807474809]
帰納的推論は、イベントのもっともらしい説明を見つけることを目的としている。
自然言語処理における帰納的推論のための既存のアプローチは、しばしば監督のために手動で生成されたアノテーションに依存している。
この研究は、ある文脈に対して、説明のサブセットのみが正しいという事実を活用する、帰納的コモンセンス推論のアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-24T01:35:10Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - Argumentative Explanations for Pattern-Based Text Classifiers [15.81939090849456]
文分類のためのパターンベースロジスティック回帰(PLR)という,特定の解釈可能なモデルの説明に焦点をあてる。
本稿では,AXPLRを提案する。AXPLRは,計算論法を用いて説明文を生成する新しい説明法である。
論文 参考訳(メタデータ) (2022-05-22T21:16:49Z) - Explainability in Process Outcome Prediction: Guidelines to Obtain
Interpretable and Faithful Models [77.34726150561087]
本稿では、プロセス結果予測の分野における説明可能性モデルと説明可能性モデルの忠実性を通して、説明可能性を定義する。
本稿では,イベントログの仕様に基づいて適切なモデルを選択することのできる,X-MOPというガイドラインのセットを提案する。
論文 参考訳(メタデータ) (2022-03-30T05:59:50Z) - Latent Causal Invariant Model [128.7508609492542]
現在の教師付き学習は、データ適合プロセス中に急激な相関を学習することができる。
因果予測を求める潜在因果不変モデル(LaCIM)を提案する。
論文 参考訳(メタデータ) (2020-11-04T10:00:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。