論文の概要: Search Methods for Sufficient, Socially-Aligned Feature Importance
Explanations with In-Distribution Counterfactuals
- arxiv url: http://arxiv.org/abs/2106.00786v1
- Date: Tue, 1 Jun 2021 20:36:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-03 14:52:15.289284
- Title: Search Methods for Sufficient, Socially-Aligned Feature Importance
Explanations with In-Distribution Counterfactuals
- Title(参考訳): In-Distribution Counterfactuals を用いた社会適応型特徴重要度記述のための検索手法
- Authors: Peter Hase, Harry Xie, Mohit Bansal
- Abstract要約: 特徴重要度(FI)推定は一般的な説明形式であり、テスト時に特定の入力特徴を除去することによって生じるモデル信頼度の変化を計算し、評価することが一般的である。
FIに基づく説明の未探索次元についていくつかの考察を行い、この説明形式に対する概念的および実証的な改善を提供する。
- 参考スコア(独自算出の注目度): 72.00815192668193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature importance (FI) estimates are a popular form of explanation, and they
are commonly created and evaluated by computing the change in model confidence
caused by removing certain input features at test time. For example, in the
standard Sufficiency metric, only the top-k most important tokens are kept. In
this paper, we study several under-explored dimensions of FI-based
explanations, providing conceptual and empirical improvements for this form of
explanation. First, we advance a new argument for why it can be problematic to
remove features from an input when creating or evaluating explanations: the
fact that these counterfactual inputs are out-of-distribution (OOD) to models
implies that the resulting explanations are socially misaligned. The crux of
the problem is that the model prior and random weight initialization influence
the explanations (and explanation metrics) in unintended ways. To resolve this
issue, we propose a simple alteration to the model training process, which
results in more socially aligned explanations and metrics. Second, we compare
among five approaches for removing features from model inputs. We find that
some methods produce more OOD counterfactuals than others, and we make
recommendations for selecting a feature-replacement function. Finally, we
introduce four search-based methods for identifying FI explanations and compare
them to strong baselines, including LIME, Integrated Gradients, and random
search. On experiments with six diverse text classification datasets, we find
that the only method that consistently outperforms random search is a Parallel
Local Search that we introduce. Improvements over the second-best method are as
large as 5.4 points for Sufficiency and 17 points for Comprehensiveness. All
supporting code is publicly available at
https://github.com/peterbhase/ExplanationSearch.
- Abstract(参考訳): 特徴重要度(FI)推定は一般的な説明形式であり、テスト時に特定の入力特徴を除去することによって生じるモデル信頼度の変化を計算し、評価することが一般的である。
例えば、標準sufficiencyメトリックでは、最も重要なトークンはトップkのみ保持される。
本稿では,fiベース説明の未検討次元をいくつか検討し,この説明形式に対する概念的および経験的改善について述べる。
まず、説明の作成や評価において、なぜインプットから特徴を取り除くことが問題となるのか、という新たな議論を前進させる: モデルに対するこれらの反事実入力がアウト・オブ・ディストリビューション(OOD)であるという事実は、結果として生じる説明が社会的に不一致であることを意味する。
問題の本質は、モデル事前化とランダムな重みの初期化が意図しない方法で説明(と説明メトリクス)に影響を与えることである。
この問題を解決するために、モデルトレーニングプロセスの簡単な変更を提案し、より社会的に整合した説明とメトリクスをもたらす。
第2に,モデル入力から機能を取り除くための5つのアプローチを比較した。
いくつかの手法はOOD対策を他の方法よりも多く生成し,機能置換関数を選択することを推奨する。
最後に,fi説明を識別し,lime,統合勾配,ランダム検索など,強力なベースラインと比較する検索ベース手法を4つ導入する。
6つの多様なテキスト分類データセットを用いて実験したところ、ランダム検索を一貫して上回る手法は並列局所探索のみであることがわかった。
第2の方法による改善は、十分で5.4ポイント、包括性で17ポイントである。
サポートコードはすべてhttps://github.com/peterbhase/ExplanationSearchで公開されている。
関連論文リスト
- ReCEval: Evaluating Reasoning Chains via Correctness and Informativeness [67.49087159888298]
ReCEvalは2つの重要な特性(正確性と情報性)を通じて推論チェーンを評価するフレームワークである。
本稿では、ReCEvalが様々なエラータイプを効果的に識別し、従来の手法と比較して顕著な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2023-04-21T02:19:06Z) - Explanation Selection Using Unlabeled Data for Chain-of-Thought
Prompting [80.9896041501715]
非専門家によって書かれたオフ・ザ・シェルフの説明のように、タスクのために"チューニング"されていない説明は、中途半端なパフォーマンスをもたらす可能性がある。
本稿では,ブラックボックス方式で説明拡散プロンプトを最適化する方法の課題に対処する。
論文 参考訳(メタデータ) (2023-02-09T18:02:34Z) - Don't Explain Noise: Robust Counterfactuals for Randomized Ensembles [50.81061839052459]
我々は確率論的問題として、堅牢な対実的説明の生成を定式化する。
アンサンブルモデルのロバスト性とベース学習者のロバスト性との関係を示す。
本手法は, 反実的説明から初期観測までの距離をわずかに増加させるだけで, 高いロバスト性を実現する。
論文 参考訳(メタデータ) (2022-05-27T17:28:54Z) - Double Trouble: How to not explain a text classifier's decisions using
counterfactuals synthesized by masked language models? [34.18339528128342]
多くの説明法の背後にある根底にある原則は、入力特徴が帰属として削除される前と後の間の予測差を取ることである。
IM(Input Marginalization)と呼ばれる最近の手法では、BERTを使用してトークンを置換し、より妥当な偽造物を生成する。
しかし、5つの指標と3つのデータセットを用いた厳密な評価では、IMの説明は、単に単語を削除することに由来するものよりも、一貫してバイアスがあり、正確で、信頼性が低いことが分かりました。
論文 参考訳(メタデータ) (2021-10-22T17:22:05Z) - Contrastive Explanations for Model Interpretability [77.92370750072831]
分類モデルの対照的説明を生成する手法を提案する。
本手法は潜在空間へのモデル表現の投影に基づいている。
本研究は,モデル決定のより正確できめ細かな解釈性を提供するためのラベルコントラスト的説明の能力に光を当てた。
論文 参考訳(メタデータ) (2021-03-02T00:36:45Z) - Towards Unifying Feature Attribution and Counterfactual Explanations:
Different Means to the Same End [17.226134854746267]
本稿では,一組の反実例から特徴帰属説明を生成する手法を提案する。
本報告では, 帰属に基づく説明の妥当性を, その必要性と充足性の観点から評価するために, 対実例をいかに活用するかを示す。
論文 参考訳(メタデータ) (2020-11-10T05:41:43Z) - Evaluating Explainable AI: Which Algorithmic Explanations Help Users
Predict Model Behavior? [97.77183117452235]
我々は、モデル解釈性に対するアルゴリズム的説明の影響を分離するために、人体テストを実施している。
方法の有効性の明確な証拠はごく少数にみえる。
以上の結果から,説明がシミュラビリティにどのように影響するかの信頼性と包括的評価が得られた。
論文 参考訳(メタデータ) (2020-05-04T20:35:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。