論文の概要: Revisiting the robustness of post-hoc interpretability methods
- arxiv url: http://arxiv.org/abs/2407.19683v1
- Date: Mon, 29 Jul 2024 03:55:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 15:06:20.346523
- Title: Revisiting the robustness of post-hoc interpretability methods
- Title(参考訳): ポストホック解釈可能性法のロバスト性を再考する
- Authors: Jiawen Wei, Hugues Turbé, Gianmarco Mengaldo,
- Abstract要約: 説明可能な人工知能(XAI)におけるポストホック解釈可能性法の役割
ポストホックの解釈可能性の異なる手法は、しばしば異なる結果をもたらし、その正確性に疑問を投げかける。
本稿では,ポストホック解釈可能性法を詳細に評価するためのアプローチと2つの新しい指標を提案する。
- 参考スコア(独自算出の注目度): 1.5020330976600738
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-hoc interpretability methods play a critical role in explainable artificial intelligence (XAI), as they pinpoint portions of data that a trained deep learning model deemed important to make a decision. However, different post-hoc interpretability methods often provide different results, casting doubts on their accuracy. For this reason, several evaluation strategies have been proposed to understand the accuracy of post-hoc interpretability. Many of these evaluation strategies provide a coarse-grained assessment -- i.e., they evaluate how the performance of the model degrades on average by corrupting different data points across multiple samples. While these strategies are effective in selecting the post-hoc interpretability method that is most reliable on average, they fail to provide a sample-level, also referred to as fine-grained, assessment. In other words, they do not measure the robustness of post-hoc interpretability methods. We propose an approach and two new metrics to provide a fine-grained assessment of post-hoc interpretability methods. We show that the robustness is generally linked to its coarse-grained performance.
- Abstract(参考訳): ポストホックの解釈可能性法は、訓練されたディープラーニングモデルが決定を下す上で重要であると判断したデータの一部を特定するため、説明可能な人工知能(XAI)において重要な役割を担っている。
しかし、様々なポストホック解釈可能性法は、しばしば異なる結果をもたらし、その正確性に疑問を投げかける。
このため、ポストホック解釈の精度を理解するために、いくつかの評価戦略が提案されている。
これらの評価戦略の多くは、粗大な評価を提供する -- すなわち、複数のサンプルにまたがる異なるデータポイントを破損させることで、モデルの性能が平均的に低下するかを評価する。
これらの戦略は、平均的に最も信頼性の高いポストホック解釈可能性法を選択するのに有効であるが、サンプルレベルの提供に失敗し、詳細評価とも呼ばれる。
言い換えれば、それらはポストホック解釈可能性法の堅牢性を測定するものではない。
本稿では,ポストホック解釈可能性法を詳細に評価するためのアプローチと2つの新しい指標を提案する。
このロバスト性は一般に粗い粒度の性能と関係していることを示す。
関連論文リスト
- A practical approach to evaluating the adversarial distance for machine learning classifiers [2.2120851074630177]
本稿では,反復的対角攻撃と認証手法を用いたより情報性の高い対角距離の推定について検討する。
我々は,我々の敵攻撃アプローチが関連する実装と比較して有効であるのに対して,認証手法は期待に届かなかった。
論文 参考訳(メタデータ) (2024-09-05T14:57:01Z) - BEExAI: Benchmark to Evaluate Explainable AI [0.9176056742068812]
本稿では,ポストホックXAI手法の大規模比較を可能にするベンチマークツールであるBEExAIを提案する。
説明の質と正確性を測定するための信頼性の高い方法の必要性が重要になっていると論じる。
論文 参考訳(メタデータ) (2024-07-29T11:21:17Z) - An Experimental Investigation into the Evaluation of Explainability
Methods [60.54170260771932]
この研究は、9つの最先端XAI法と3つのダミー法(例えば、ランダム・サリエンシ・マップ)に適用された14の異なるメトリクスを比較した。
実験の結果、これらの指標のどれが高い相関関係を示し、潜在的な冗長性を示している。
論文 参考訳(メタデータ) (2023-05-25T08:07:07Z) - Better Understanding Differences in Attribution Methods via Systematic Evaluations [57.35035463793008]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
これらの評価手法を用いて、広範囲のモデルにおいて広く用いられている属性手法の長所と短所について検討する。
論文 参考訳(メタデータ) (2023-03-21T14:24:58Z) - The Meta-Evaluation Problem in Explainable AI: Identifying Reliable
Estimators with MetaQuantus [10.135749005469686]
説明可能なAI(XAI)分野における未解決課題の1つは、説明方法の品質を最も確実に見積もる方法を決定することである。
我々は、XAIの異なる品質推定器のメタ評価を通じてこの問題に対処する。
我々の新しいフレームワークMetaQuantusは、品質推定器の2つの相補的な性能特性を解析する。
論文 参考訳(メタデータ) (2023-02-14T18:59:02Z) - On The Coherence of Quantitative Evaluation of Visual Explanations [0.7212939068975619]
視覚的説明の「良さ」を評価するための評価手法が提案されている。
我々はImageNet-1k検証セットのサブセットについて検討し、多くの一般的な説明手法を評価した。
本研究の結果から, 評価方法のいくつかは, 階調のコヒーレンシーが欠如していることが示唆された。
論文 参考訳(メタデータ) (2023-02-14T13:41:57Z) - SAFARI: Versatile and Efficient Evaluations for Robustness of
Interpretability [11.230696151134367]
ディープラーニング(DL)の解釈可能性(Interpretability of Deep Learning)は、信頼できるAIの障壁である。
XAI法を考慮すれば, DLの堅牢性を評価することが不可欠である。
論文 参考訳(メタデータ) (2022-08-19T16:07:22Z) - Towards Better Understanding Attribution Methods [77.1487219861185]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
また,いくつかの属性法の性能を著しく向上する処理後平滑化ステップを提案する。
論文 参考訳(メタデータ) (2022-05-20T20:50:17Z) - Performance Evaluation of Adversarial Attacks: Discrepancies and
Solutions [51.8695223602729]
機械学習モデルの堅牢性に挑戦するために、敵対攻撃方法が開発されました。
本稿では,Piece-wise Sampling Curving(PSC)ツールキットを提案する。
psc toolkitは計算コストと評価効率のバランスをとるオプションを提供する。
論文 参考訳(メタデータ) (2021-04-22T14:36:51Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。