論文の概要: Towards Unifying Feature Attribution and Counterfactual Explanations:
Different Means to the Same End
- arxiv url: http://arxiv.org/abs/2011.04917v3
- Date: Sat, 29 May 2021 17:49:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 08:16:39.838457
- Title: Towards Unifying Feature Attribution and Counterfactual Explanations:
Different Means to the Same End
- Title(参考訳): 特徴属性の統一と対実的説明:同じ目的に対する異なる意味
- Authors: Ramaravind Kommiya Mothilal and Divyat Mahajan and Chenhao Tan and
Amit Sharma
- Abstract要約: 本稿では,一組の反実例から特徴帰属説明を生成する手法を提案する。
本報告では, 帰属に基づく説明の妥当性を, その必要性と充足性の観点から評価するために, 対実例をいかに活用するかを示す。
- 参考スコア(独自算出の注目度): 17.226134854746267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature attributions and counterfactual explanations are popular approaches
to explain a ML model. The former assigns an importance score to each input
feature, while the latter provides input examples with minimal changes to alter
the model's predictions. To unify these approaches, we provide an
interpretation based on the actual causality framework and present two key
results in terms of their use. First, we present a method to generate feature
attribution explanations from a set of counterfactual examples. These feature
attributions convey how important a feature is to changing the classification
outcome of a model, especially on whether a subset of features is necessary
and/or sufficient for that change, which attribution-based methods are unable
to provide. Second, we show how counterfactual examples can be used to evaluate
the goodness of an attribution-based explanation in terms of its necessity and
sufficiency. As a result, we highlight the complementarity of these two
approaches. Our evaluation on three benchmark datasets - Adult-Income,
LendingClub, and German-Credit - confirms the complementarity. Feature
attribution methods like LIME and SHAP and counterfactual explanation methods
like Wachter et al. and DiCE often do not agree on feature importance rankings.
In addition, by restricting the features that can be modified for generating
counterfactual examples, we find that the top-k features from LIME or SHAP are
often neither necessary nor sufficient explanations of a model's prediction.
Finally, we present a case study of different explanation methods on a
real-world hospital triage problem
- Abstract(参考訳): 特徴属性と反事実的説明は、MLモデルを説明するための一般的なアプローチである。
前者は各入力特徴に重要度スコアを割り当て、後者はモデルの予測を変更するために最小限の変更で入力例を提供する。
これらのアプローチを統合するために、実際の因果関係フレームワークに基づく解釈を行い、それらの使用の観点から2つの重要な結果を示す。
まず,一組の反実例から特徴帰属説明を生成する手法を提案する。
これらの特徴属性は、モデルの分類結果を変更すること、特に特徴のサブセットが必要か、あるいはその変更に十分か、特徴属性に基づくメソッドが提供できないかにおいて、特徴がいかに重要であるかを伝える。
第二に, 帰属に基づく説明の良否を, その必要性と充足性の観点から評価するために, 反事実的例がいかに用いられるかを示す。
その結果,これら2つのアプローチの相補性が強調された。
3つのベンチマークデータセット(アダルトインカム、レンディングクラブ、ドイツクレジット)について評価した結果、相補性が確認された。
LIME や SHAP のような特徴帰属法や Wachter や DiCE のような反実的説明法は、しばしば特徴的重要性のランキングに一致しない。
さらに, 逆実例を生成するために修正可能な特徴を制限することで, LIME や SHAP の上位k 個の特徴は, モデル予測の十分な説明も必要ではないことが判明した。
最後に,実世界の病院トリアージ問題に対する異なる説明方法のケーススタディを提案する。
関連論文リスト
- When factorization meets argumentation: towards argumentative explanations [0.0]
因数分解に基づく手法と議論フレームワーク(AF)を組み合わせた新しいモデルを提案する。
我々のフレームワークは、ユーザコンテキストなどのサイド情報をシームレスに組み込んで、より正確な予測を可能にします。
論文 参考訳(メタデータ) (2024-05-13T19:16:28Z) - Reckoning with the Disagreement Problem: Explanation Consensus as a
Training Objective [5.949779668853556]
ポストホック特徴属性(Post hoc feature attribution)は、入力中の各特徴にモデル出力への影響に対応するスコアを与える一連の方法である。
この種類の説明者の大きな制限は、どの特徴が他のものよりも重要であるかについて意見が一致しないことである。
本稿では,2つの説明者間の特徴属性の差を計測する,精度に対応する標準的な用語とともに,損失項を導入する。
3つのデータセットから、この損失項を用いてモデルをトレーニングし、未知のデータに関する説明コンセンサスを改善するとともに、損失項で使用されるもの以外の説明コンセンサスの改善したコンセンサスを確認する。
論文 参考訳(メタデータ) (2023-03-23T14:35:37Z) - Counterfactual Explanations for Support Vector Machine Models [1.933681537640272]
モデル解釈可能性を高めることを目的として, 反実的説明を見つける方法を示す。
また,保護機能を用いて法科学生が司法試験に合格するかどうかを予測するための支援ベクトルマシンモデルを構築した。
論文 参考訳(メタデータ) (2022-12-14T17:13:22Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - Search Methods for Sufficient, Socially-Aligned Feature Importance
Explanations with In-Distribution Counterfactuals [72.00815192668193]
特徴重要度(FI)推定は一般的な説明形式であり、テスト時に特定の入力特徴を除去することによって生じるモデル信頼度の変化を計算し、評価することが一般的である。
FIに基づく説明の未探索次元についていくつかの考察を行い、この説明形式に対する概念的および実証的な改善を提供する。
論文 参考訳(メタデータ) (2021-06-01T20:36:48Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - Contrastive Explanations for Model Interpretability [77.92370750072831]
分類モデルの対照的説明を生成する手法を提案する。
本手法は潜在空間へのモデル表現の投影に基づいている。
本研究は,モデル決定のより正確できめ細かな解釈性を提供するためのラベルコントラスト的説明の能力に光を当てた。
論文 参考訳(メタデータ) (2021-03-02T00:36:45Z) - The Struggles of Feature-Based Explanations: Shapley Values vs. Minimal
Sufficient Subsets [61.66584140190247]
機能に基づく説明は、自明なモデルでも問題を引き起こすことを示す。
そこで本研究では,2つの一般的な説明書クラスであるシェープリー説明書と十分最小限の部分集合説明書が,基本的に異なる基底的説明書のタイプをターゲットにしていることを示す。
論文 参考訳(メタデータ) (2020-09-23T09:45:23Z) - Deducing neighborhoods of classes from a fitted model [68.8204255655161]
本稿では,新しいタイプの解釈可能な機械学習手法を提案する。
量子シフトを用いた分類モデルでは、特徴空間の予測クラスへの分割を理解するのに役立ちます。
基本的に、実際のデータポイント(または特定の関心点)を使用し、特定の特徴をわずかに引き上げたり減少させたりした後の予測の変化を観察する。
論文 参考訳(メタデータ) (2020-09-11T16:35:53Z) - Adversarial Infidelity Learning for Model Interpretation [43.37354056251584]
本稿では,モデル解釈のためのモデル非依存能率直接(MEED)FSフレームワークを提案する。
我々のフレームワークは、正当性、ショートカット、モデルの識別可能性、情報伝達に関する懸念を緩和する。
我々のAILメカニズムは、選択した特徴と目標の間の条件分布を学習するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-09T16:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。