論文の概要: On the Faithfulness of Vision Transformer Explanations
- arxiv url: http://arxiv.org/abs/2404.01415v1
- Date: Mon, 1 Apr 2024 18:41:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 20:47:06.175082
- Title: On the Faithfulness of Vision Transformer Explanations
- Title(参考訳): 視覚変換器の説明の忠実性について
- Authors: Junyi Wu, Weitai Kang, Hao Tang, Yuan Hong, Yan Yan,
- Abstract要約: ポストホックの説明では、サリエンススコアを入力ピクセルに割り当て、人間の理解可能なヒートマップを提供する。
サリエンス誘導忠実度係数(SaCo)は,サリエンス分布の本質的情報を利用した新しい評価指標である。
我々のSaCoは、勾配と多層アグリゲーションを用いることで、注意に基づく説明の忠実さを著しく向上させることができることを示した。
- 参考スコア(独自算出の注目度): 23.963269554498716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To interpret Vision Transformers, post-hoc explanations assign salience scores to input pixels, providing human-understandable heatmaps. However, whether these interpretations reflect true rationales behind the model's output is still underexplored. To address this gap, we study the faithfulness criterion of explanations: the assigned salience scores should represent the influence of the corresponding input pixels on the model's predictions. To evaluate faithfulness, we introduce Salience-guided Faithfulness Coefficient (SaCo), a novel evaluation metric leveraging essential information of salience distribution. Specifically, we conduct pair-wise comparisons among distinct pixel groups and then aggregate the differences in their salience scores, resulting in a coefficient that indicates the explanation's degree of faithfulness. Our explorations reveal that current metrics struggle to differentiate between advanced explanation methods and Random Attribution, thereby failing to capture the faithfulness property. In contrast, our proposed SaCo offers a reliable faithfulness measurement, establishing a robust metric for interpretations. Furthermore, our SaCo demonstrates that the use of gradient and multi-layer aggregation can markedly enhance the faithfulness of attention-based explanation, shedding light on potential paths for advancing Vision Transformer explainability.
- Abstract(参考訳): 視覚変換器を解釈するために、ポストホックの説明では、サリエンススコアを入力ピクセルに割り当て、人間の理解可能なヒートマップを提供する。
しかしながら、これらの解釈がモデル出力の真理性を反映しているかどうかはまだ未定である。
このギャップに対処するために, 与えられたサリエンススコアは, モデルの予測に対する対応する入力画素の影響を表現すべきである, 説明の忠実度基準について検討する。
忠実度を評価するために,サリエンス誘導忠実度係数(SaCo)を導入し,サリエンス分布の本質的情報を活用する新しい評価指標を提案する。
具体的には、異なる画素群間のペアワイズ比較を行い、それらのサリエンススコアの差を集計し、説明の忠実度を示す係数を与える。
我々の調査では、現在のメトリクスは高度な説明方法とランダム属性を区別するのに苦労しており、従って忠実性の獲得に失敗している。
対照的に、提案したSaCoは信頼性の高い忠実度測定を提供し、解釈のための堅牢な計量を確立している。
さらに、我々は、勾配と多層アグリゲーションを用いることで、注意に基づく説明の忠実さを著しく向上させ、視覚トランスフォーマーの説明可能性を高めるための潜在的な経路に光を当てることができることを示した。
関連論文リスト
- Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。
実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。
我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文 参考訳(メタデータ) (2023-08-28T03:03:03Z) - Beyond Model Interpretability: On the Faithfulness and Adversarial
Robustness of Contrastive Textual Explanations [2.543865489517869]
本研究は、説明の忠実さに触発された新たな評価手法の基盤を築き、テキストの反事実を動機づけるものである。
感情分析データを用いた実験では, 両モデルとも, 対物関係の関連性は明らかでないことがわかった。
論文 参考訳(メタデータ) (2022-10-17T09:50:02Z) - Fooling SHAP with Stealthily Biased Sampling [7.476901945542385]
SHAPの説明は、特定の入力におけるモデル予測と背景分布との差に最も寄与する特徴を特定することを目的としている。
近年の研究では、悪意のある敵によって操作され、任意に望まれる説明が得られることが示されている。
本稿では,モデルが無傷のまま残されるような攻撃の相補的なファミリを提案し,背景分布を推定するために使用されるデータポイントの密かに偏りのあるサンプリングを用いてSHAP説明を操作する。
論文 参考訳(メタデータ) (2022-05-30T20:33:46Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - Is Sparse Attention more Interpretable? [52.85910570651047]
我々は,空間が注意力を説明可能性ツールとして活用する能力にどのように影響するかを検討する。
入力とインデックス付き中間表現の間には弱い関係しか存在しません。
この設定では、疎度を誘導することで、モデルの振る舞いを理解するためのツールとして注意が使用できることが、より確実になる可能性があることを観察する。
論文 参考訳(メタデータ) (2021-06-02T11:42:56Z) - Where and What? Examining Interpretable Disentangled Representations [96.32813624341833]
解釈可能なバリエーションの獲得は、長い間、絡み合い学習の目標の1つだった。
独立性の仮定と異なり、解釈性は教師なしの設定での絡み合いを促進するために使われることは滅多にない。
本論文では, 解釈対象と解釈対象の2つの質問について検討し, 離散表現の解釈可能性を検討する。
論文 参考訳(メタデータ) (2021-04-07T11:22:02Z) - Explainers in the Wild: Making Surrogate Explainers Robust to
Distortions through Perception [77.34726150561087]
説明における歪みの影響を知覚距離を埋め込むことで評価する手法を提案する。
Imagenet-Cデータセットの画像の説明を生成し、サロゲート説明書の知覚距離を使用して歪んだ画像と参照画像のより一貫性のある説明を作成する方法を示しています。
論文 参考訳(メタデータ) (2021-02-22T12:38:53Z) - Disentangling Action Sequences: Discovering Correlated Samples [6.179793031975444]
我々は、データ自体が要因ではなく非絡み合いにおいて重要な役割を担い、非絡み合い表現は潜在変数とアクションシーケンスとを一致させることを示した。
本稿では,アクションシーケンスをステップバイステップで切り離すための新しいフレームワークFVAEを提案する。
dSprites と 3D Chairs の実験結果から, FVAE は絡み合いの安定性を向上させることが示された。
論文 参考訳(メタデータ) (2020-10-17T07:37:50Z) - Learning Disentangled Representations with Latent Variation
Predictability [102.4163768995288]
本稿では,潜在不整合表現の変動予測可能性について述べる。
逆生成プロセス内では、潜時変動と対応する画像対の相互情報を最大化することにより、変動予測可能性を高める。
本研究では,潜在表現の絡み合いを測るために,基礎的構造的生成因子に依存しない評価指標を開発する。
論文 参考訳(メタデータ) (2020-07-25T08:54:26Z) - Assessing the Reliability of Visual Explanations of Deep Models with
Adversarial Perturbations [15.067369314723958]
本稿では,深層モデルの説明の信頼性を評価するための客観的尺度を提案する。
提案手法は,入力画像の逆方向の摂動によるネットワーク結果の変化に基づく。
我々はまた,本質的な説明を損なうことなく,より解釈可能な地図を創出し,関連性マップのクリーン化へのアプローチの直接的な適用を提案する。
論文 参考訳(メタデータ) (2020-04-22T19:57:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。