論文の概要: "Is your explanation stable?": A Robustness Evaluation Framework for
Feature Attribution
- arxiv url: http://arxiv.org/abs/2209.01782v1
- Date: Mon, 5 Sep 2022 06:39:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 12:34:11.110095
- Title: "Is your explanation stable?": A Robustness Evaluation Framework for
Feature Attribution
- Title(参考訳): 「あなたの説明は安定ですか?」:機能属性のためのロバストネス評価フレームワーク
- Authors: Yuyou Gan, Yuhao Mao, Xuhong Zhang, Shouling Ji, Yuwen Pu, Meng Han,
Jianwei Yin, Ting Wang
- Abstract要約: 本稿では,不確実性を定量化し,説明アルゴリズムの安定性を高めるために,モデルに依存しないemphMedian Test for Feature Attribution (MeTFA)を提案する。
MeTFAは、説明の視覚的品質を改善し、忠実性を維持しながら不安定性を著しく低下させる。
MeTFAは、バニラの防衛や、説明に対する適応的で敵対的な攻撃を支援することができる。
- 参考スコア(独自算出の注目度): 44.98789139439482
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the decision process of neural networks is hard. One vital
method for explanation is to attribute its decision to pivotal features.
Although many algorithms are proposed, most of them solely improve the
faithfulness to the model. However, the real environment contains many random
noises, which may leads to great fluctuations in the explanations. More
seriously, recent works show that explanation algorithms are vulnerable to
adversarial attacks. All of these make the explanation hard to trust in real
scenarios.
To bridge this gap, we propose a model-agnostic method \emph{Median Test for
Feature Attribution} (MeTFA) to quantify the uncertainty and increase the
stability of explanation algorithms with theoretical guarantees. MeTFA has the
following two functions: (1) examine whether one feature is significantly
important or unimportant and generate a MeTFA-significant map to visualize the
results; (2) compute the confidence interval of a feature attribution score and
generate a MeTFA-smoothed map to increase the stability of the explanation.
Experiments show that MeTFA improves the visual quality of explanations and
significantly reduces the instability while maintaining the faithfulness. To
quantitatively evaluate the faithfulness of an explanation under different
noise settings, we further propose several robust faithfulness metrics.
Experiment results show that the MeTFA-smoothed explanation can significantly
increase the robust faithfulness. In addition, we use two scenarios to show
MeTFA's potential in the applications. First, when applied to the SOTA
explanation method to locate context bias for semantic segmentation models,
MeTFA-significant explanations use far smaller regions to maintain 99\%+
faithfulness. Second, when tested with different explanation-oriented attacks,
MeTFA can help defend vanilla, as well as adaptive, adversarial attacks against
explanations.
- Abstract(参考訳): ニューラルネットワークの決定プロセスを理解することは難しい。
説明の重要な方法は、その決定を重要な特徴とみなすことである。
多くのアルゴリズムが提案されているが、そのほとんどはモデルに対する忠実性を改善するものである。
しかし、実環境には多くのランダムノイズがあり、説明に大きな変動をもたらす可能性がある。
より真剣に、最近の研究は、説明アルゴリズムが敵の攻撃に弱いことを示している。
これらはすべて、実際のシナリオを信頼することが難しい。
このギャップを埋めるために,不確かさを定量化し,理論的な保証により説明アルゴリズムの安定性を高めるためのモデル非依存型特徴帰納法 (metfa) を提案する。
1つの特徴が重要なのか重要でないのかを調べ、その結果を視覚化するためにMeTFAに重要なマップを生成し、2)特徴属性スコアの信頼区間を計算し、説明の安定性を高めるためにMeTFAに平滑なマップを生成する。
実験の結果,MeTFAは説明の視覚的品質を改善し,信頼性を維持しながら不安定性を著しく低下させることがわかった。
異なる雑音環境下で説明の忠実さを定量的に評価するために,いくつかのロバストな忠実度指標を提案する。
実験結果から,MeTFA平滑な説明は頑健な忠実度を著しく向上させる可能性が示唆された。
さらに、アプリケーションにおけるMeTFAの可能性を示すために、2つのシナリオを使用します。
まず,意味的セグメンテーションモデルにおける文脈バイアスを特定するためのSOTA説明法を適用すると,MeTFAに代表される説明は,より小さな領域を用いて99\%以上の忠実性を維持する。
第二に、異なる説明指向の攻撃でテストすると、MeTFAはバニラを防御し、説明に対する適応的で敵対的な攻撃を支援することができる。
関連論文リスト
- Towards Faithful Natural Language Explanations: A Study Using Activation Patching in Large Language Models [29.67884478799914]
大きな言語モデル(LLM)は、その答えを正当化するために説得力のある自然言語説明(NLE)を生成することができる。
近年,NLEの忠実度を測定するための様々な手法が提案されている。
これらのアプローチは、確立された忠実性の定義に従って包括的でも正しくも設計されていない、と我々は主張する。
論文 参考訳(メタデータ) (2024-10-18T03:45:42Z) - VisFIS: Visual Feature Importance Supervision with
Right-for-the-Right-Reason Objectives [84.48039784446166]
モデルFI監督は、VQAモデルの精度と、Right-to-the-Right-Reasonメトリクスの性能を有意義に向上させることができることを示す。
我々の最高のパフォーマンス手法であるVisual Feature Importance Supervision (VisFIS)は、ベンチマークVQAデータセットで強いベースラインを上回ります。
説明が妥当で忠実な場合には予測がより正確になる。
論文 参考訳(メタデータ) (2022-06-22T17:02:01Z) - Don't Explain Noise: Robust Counterfactuals for Randomized Ensembles [50.81061839052459]
我々は確率論的問題として、堅牢な対実的説明の生成を定式化する。
アンサンブルモデルのロバスト性とベース学習者のロバスト性との関係を示す。
本手法は, 反実的説明から初期観測までの距離をわずかに増加させるだけで, 高いロバスト性を実現する。
論文 参考訳(メタデータ) (2022-05-27T17:28:54Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - The Unreliability of Explanations in Few-Shot In-Context Learning [50.77996380021221]
我々は、テキスト上の推論、すなわち質問応答と自然言語推論を含む2つのNLPタスクに焦点を当てる。
入力と論理的に整合した説明は、通常より正確な予測を示す。
本稿では,説明の信頼性に基づいてモデル予測を校正する枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-06T17:57:58Z) - Counterfactual Evaluation for Explainable AI [21.055319253405603]
そこで本稿では, 文献的推論の観点から, 説明の忠実さを評価する新しい手法を提案する。
離散シナリオと連続シナリオの両方において適切な反事実を見つけるために2つのアルゴリズムを導入し、取得した反事実を用いて忠実度を測定する。
論文 参考訳(メタデータ) (2021-09-05T01:38:49Z) - Search Methods for Sufficient, Socially-Aligned Feature Importance
Explanations with In-Distribution Counterfactuals [72.00815192668193]
特徴重要度(FI)推定は一般的な説明形式であり、テスト時に特定の入力特徴を除去することによって生じるモデル信頼度の変化を計算し、評価することが一般的である。
FIに基づく説明の未探索次元についていくつかの考察を行い、この説明形式に対する概念的および実証的な改善を提供する。
論文 参考訳(メタデータ) (2021-06-01T20:36:48Z) - Reliable Post hoc Explanations: Modeling Uncertainty in Explainability [44.9824285459365]
ブラックボックスの説明は、高レベルの設定でモデルの信頼性を確立するために、ますます採用されている。
先行研究では、最先端の技術が生み出す説明は一貫性がなく不安定であり、その正確性や信頼性についての洞察はほとんど得られないことが示されている。
局所的な説明と関連する不確実性を生成するための新しいベイズ的枠組みを開発する。
論文 参考訳(メタデータ) (2020-08-11T22:52:21Z) - Getting a CLUE: A Method for Explaining Uncertainty Estimates [30.367995696223726]
微分可能確率モデルからの不確実性推定を解釈する新しい手法を提案する。
提案手法は,データ多様体上に保持しながら,入力の変更方法を示す。
論文 参考訳(メタデータ) (2020-06-11T21:53:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。