論文の概要: Precise Benchmarking of Explainable AI Attribution Methods
- arxiv url: http://arxiv.org/abs/2308.03161v1
- Date: Sun, 6 Aug 2023 17:03:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 16:22:20.248671
- Title: Precise Benchmarking of Explainable AI Attribution Methods
- Title(参考訳): 説明可能なai帰属法の精密ベンチマーク
- Authors: Rafa\"el Brandt, Daan Raatjens, Georgi Gaydadjiev
- Abstract要約: 本稿では,最新のXAI属性手法のベンチマークのための新しい評価手法を提案する。
提案手法は, 基礎的真理の説明を伴う合成分類モデルから成り立っている。
実験の結果, Guided-Backprop 法と Smoothgrad XAI 法の性能に関する新たな知見が得られた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rationale behind a deep learning model's output is often difficult to
understand by humans. EXplainable AI (XAI) aims at solving this by developing
methods that improve interpretability and explainability of machine learning
models. Reliable evaluation metrics are needed to assess and compare different
XAI methods. We propose a novel evaluation approach for benchmarking
state-of-the-art XAI attribution methods. Our proposal consists of a synthetic
classification model accompanied by its derived ground truth explanations
allowing high precision representation of input nodes contributions. We also
propose new high-fidelity metrics to quantify the difference between
explanations of the investigated XAI method and those derived from the
synthetic model. Our metrics allow assessment of explanations in terms of
precision and recall separately. Also, we propose metrics to independently
evaluate negative or positive contributions of inputs. Our proposal provides
deeper insights into XAI methods output. We investigate our proposal by
constructing a synthetic convolutional image classification model and
benchmarking several widely used XAI attribution methods using our evaluation
approach. We compare our results with established prior XAI evaluation metrics.
By deriving the ground truth directly from the constructed model in our method,
we ensure the absence of bias, e.g., subjective either based on the training
set. Our experimental results provide novel insights into the performance of
Guided-Backprop and Smoothgrad XAI methods that are widely in use. Both have
good precision and recall scores among positively contributing pixels (0.7,
0.76 and 0.7, 0.77, respectively), but poor precision scores among negatively
contributing pixels (0.44, 0.61 and 0.47, 0.75, resp.). The recall scores in
the latter case remain close. We show that our metrics are among the fastest in
terms of execution time.
- Abstract(参考訳): ディープラーニングモデルのアウトプットの背後にある理論的根拠は、人間の理解が難しいことが多い。
説明可能なAI(XAI)は、機械学習モデルの解釈可能性と説明可能性を改善する方法を開発することで、この問題を解決することを目指している。
異なるXAI手法の評価と比較には信頼性の高い評価指標が必要である。
本稿では,最新のXAI属性手法のベンチマークのための新しい評価手法を提案する。
提案手法は,入力ノードの寄与を高精度に表現できる,基本的真理説明を伴う合成分類モデルから構成される。
また,XAI法の説明と合成モデルから導出した説明との違いを定量化するための新しい高忠実度指標を提案する。
評価基準は、精度とリコールを別々に評価することを可能にした。
また,入力の負あるいは正の寄与を独立に評価する指標を提案する。
我々の提案はXAIメソッド出力に関する深い洞察を提供する。
本稿では,合成畳み込み画像分類モデルを構築し,その評価手法を用いて複数のxai帰属法をベンチマークする。
我々は,既存のXAI評価指標と比較した。
提案手法において構築されたモデルから直接基底真理を導出することにより、例えば、トレーニングセットに基づく主観的バイアスの欠如を保証する。
実験結果から,広く利用されている Guided-Backprop 法と Smoothgrad XAI 法の性能に関する新たな知見が得られた。
どちらも正の寄与画素 (0.7, 0.76, 0.7, 0.77, 0.77) では精度が良いが、負の寄与画素 (0.44, 0.61, 0.47, 0.75, resp.) では精度が劣る。
後者の場合のリコールスコアは近いままである。
私たちは、我々のメトリクスが実行時間で最速であることを示します。
関連論文リスト
- F-Fidelity: A Robust Framework for Faithfulness Evaluation of Explainable AI [15.314388210699443]
微調整フィデリティF-フィデリティはXAIの堅牢な評価フレームワークである。
その結果, F-Fidelity は, 説明者の信頼度を回復する上で, 事前評価基準を著しく改善することを示した。
また,F-Fidelityの指標を忠実に説明すれば,入力成分の空間性を計算することができることを示す。
論文 参考訳(メタデータ) (2024-10-03T20:23:06Z) - Robustness of Explainable Artificial Intelligence in Industrial Process Modelling [43.388607981317016]
我々は,地中真実シミュレーションと感度解析に基づいて,現在のXAI手法を評価する。
モデル化された産業プロセスの真の感度を正確に予測する能力において,XAI法とXAI法の違いを示す。
論文 参考訳(メタデータ) (2024-07-12T09:46:26Z) - Are Objective Explanatory Evaluation metrics Trustworthy? An Adversarial Analysis [12.921307214813357]
本論文の目的は,Pixel Elimination を用いた SHifted Adversaries と呼ばれる新しい説明手法を考案することである。
我々は、SHAPEは、一般的な重要度に基づく視覚的XAI手法の堅牢性と信頼性を測定するために使用される因果的指標を騙す逆説であることを示す。
論文 参考訳(メタデータ) (2024-06-12T02:39:46Z) - EXACT: Towards a platform for empirically benchmarking Machine Learning model explanation methods [1.6383837447674294]
本稿では、初期ベンチマークプラットフォームにおいて、様々なベンチマークデータセットと新しいパフォーマンス指標をまとめる。
我々のデータセットには、クラス条件の特徴に対する真実の説明が組み込まれています。
このプラットフォームは、それらが生成する説明の品質において、ポストホックなXAIメソッドのパフォーマンスを評価する。
論文 参考訳(メタデータ) (2024-05-20T14:16:06Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - An Experimental Investigation into the Evaluation of Explainability
Methods [60.54170260771932]
この研究は、9つの最先端XAI法と3つのダミー法(例えば、ランダム・サリエンシ・マップ)に適用された14の異なるメトリクスを比較した。
実験の結果、これらの指標のどれが高い相関関係を示し、潜在的な冗長性を示している。
論文 参考訳(メタデータ) (2023-05-25T08:07:07Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。