論文の概要: Navigating the Maze of Explainable AI: A Systematic Approach to Evaluating Methods and Metrics
- arxiv url: http://arxiv.org/abs/2409.16756v2
- Date: Mon, 7 Oct 2024 15:53:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 17:20:02.646627
- Title: Navigating the Maze of Explainable AI: A Systematic Approach to Evaluating Methods and Metrics
- Title(参考訳): 説明可能なAIの迷路をナビゲートする - 方法とメトリクスを評価するための体系的なアプローチ
- Authors: Lukas Klein, Carsten T. Lüth, Udo Schlegel, Till J. Bungert, Mennatallah El-Assady, Paul F. Jäger,
- Abstract要約: LATECは、20の異なる指標を用いて17の顕著なXAI手法を批判的に評価する大規模なベンチマークである。
信頼性の低いランキングに繋がるメトリクスの衝突リスクを実証し、その結果、より堅牢な評価手法を提案する。
LATECは将来のXAI研究における役割を強化し、326kのサリエンシマップと378kのメトリクススコアを(メタ評価)データセットとして公開している。
- 参考スコア(独自算出の注目度): 10.045644410833402
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Explainable AI (XAI) is a rapidly growing domain with a myriad of proposed methods as well as metrics aiming to evaluate their efficacy. However, current studies are often of limited scope, examining only a handful of XAI methods and ignoring underlying design parameters for performance, such as the model architecture or the nature of input data. Moreover, they often rely on one or a few metrics and neglect thorough validation, increasing the risk of selection bias and ignoring discrepancies among metrics. These shortcomings leave practitioners confused about which method to choose for their problem. In response, we introduce LATEC, a large-scale benchmark that critically evaluates 17 prominent XAI methods using 20 distinct metrics. We systematically incorporate vital design parameters like varied architectures and diverse input modalities, resulting in 7,560 examined combinations. Through LATEC, we showcase the high risk of conflicting metrics leading to unreliable rankings and consequently propose a more robust evaluation scheme. Further, we comprehensively evaluate various XAI methods to assist practitioners in selecting appropriate methods aligning with their needs. Curiously, the emerging top-performing method, Expected Gradients, is not examined in any relevant related study. LATEC reinforces its role in future XAI research by publicly releasing all 326k saliency maps and 378k metric scores as a (meta-)evaluation dataset. The benchmark is hosted at: https://github.com/IML-DKFZ/latec.
- Abstract(参考訳): 説明可能なAI(XAI)は、数多くの提案されたメソッドと、その有効性を評価するためのメトリクスを備えた、急速に成長するドメインである。
しかしながら、現在の研究はしばしば範囲が限られており、XAIメソッドのごく一部だけを調べ、モデルアーキテクチャや入力データの性質など、パフォーマンスの基本的な設計パラメータを無視している。
さらに、彼らはしばしば1つか数つのメトリクスに依存し、徹底的な検証を無視し、選択バイアスのリスクを高め、メトリクス間の相違を無視します。
これらの欠点は、実践者が自分の問題にどの方法を選ぶべきかを混乱させます。
LATECは、20の異なる指標を用いて17の著名なXAI手法を批判的に評価する大規模ベンチマークである。
様々なアーキテクチャや多様な入力モダリティといった重要な設計パラメータを体系的に組み込んだ結果、7,560の組合せが得られた。
LATECを通じて、信頼性の低いランキングに繋がるメトリクスの衝突リスクの高さを示し、その結果、より堅牢な評価手法を提案する。
さらに,実践者のニーズに合わせて適切な方法を選択する際の支援として,様々なXAI手法を総合的に評価する。
驚くべきことに、新たなトップパフォーマンス手法である予測グラディエントは、関連する研究では検討されていない。
LATECは将来のXAI研究における役割を強化し、326kのサリエンシマップと378kのメトリクススコアを(メタ)評価データセットとして公開している。
ベンチマークはhttps://github.com/IML-DKFZ/latec.comでホストされている。
関連論文リスト
- MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - Developing Guidelines for Functionally-Grounded Evaluation of Explainable Artificial Intelligence using Tabular Data [5.864471607396997]
我々は,評価基準と関連する評価手法を20種類同定し,各基準をいつ,どのように評価すべきかに関するガイドラインを導出する。
本研究は,XAI評価プロトコルの詳細な検討を通じて,XAI評価に関する知識の体系化に寄与する。
論文 参考訳(メタデータ) (2024-09-30T11:42:54Z) - Are Objective Explanatory Evaluation metrics Trustworthy? An Adversarial Analysis [12.921307214813357]
本論文の目的は,Pixel Elimination を用いた SHifted Adversaries と呼ばれる新しい説明手法を考案することである。
我々は、SHAPEは、一般的な重要度に基づく視覚的XAI手法の堅牢性と信頼性を測定するために使用される因果的指標を騙す逆説であることを示す。
論文 参考訳(メタデータ) (2024-06-12T02:39:46Z) - A Comprehensive Library for Benchmarking Multi-class Visual Anomaly Detection [52.228708947607636]
本稿では,新しい手法のモジュラーフレームワークであるADerを包括的視覚異常検出ベンチマークとして紹介する。
このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。
我々は,異なる手法の長所と短所を客観的に明らかにし,多クラス視覚異常検出の課題と今後の方向性について考察する。
論文 参考訳(メタデータ) (2024-06-05T13:40:07Z) - Precise Benchmarking of Explainable AI Attribution Methods [0.0]
本稿では,最新のXAI属性手法のベンチマークのための新しい評価手法を提案する。
提案手法は, 基礎的真理の説明を伴う合成分類モデルから成り立っている。
実験の結果, Guided-Backprop 法と Smoothgrad XAI 法の性能に関する新たな知見が得られた。
論文 参考訳(メタデータ) (2023-08-06T17:03:32Z) - An Experimental Investigation into the Evaluation of Explainability
Methods [60.54170260771932]
この研究は、9つの最先端XAI法と3つのダミー法(例えば、ランダム・サリエンシ・マップ)に適用された14の異なるメトリクスを比較した。
実験の結果、これらの指標のどれが高い相関関係を示し、潜在的な冗長性を示している。
論文 参考訳(メタデータ) (2023-05-25T08:07:07Z) - Better Understanding Differences in Attribution Methods via Systematic Evaluations [57.35035463793008]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
これらの評価手法を用いて、広範囲のモデルにおいて広く用いられている属性手法の長所と短所について検討する。
論文 参考訳(メタデータ) (2023-03-21T14:24:58Z) - Connecting Algorithmic Research and Usage Contexts: A Perspective of
Contextualized Evaluation for Explainable AI [65.44737844681256]
説明可能なAI(XAI)を評価する方法に関するコンセンサスの欠如は、この分野の進歩を妨げる。
このギャップを埋める一つの方法は、異なるユーザ要求を考慮に入れた評価方法を開発することである、と我々は主張する。
論文 参考訳(メタデータ) (2022-06-22T05:17:33Z) - Crowdsourcing Evaluation of Saliency-based XAI Methods [18.18238526746074]
本稿では,クラウドソーシングによるXAI手法の評価手法を提案する。
我々の手法は人間の計算ゲーム「Peek-a-boom」にインスパイアされている。
自動評価と群集評価を併用した2つのデータセット上で,様々なXAI手法の精度マップを評価した。
論文 参考訳(メタデータ) (2021-06-27T17:37:53Z) - PONE: A Novel Automatic Evaluation Metric for Open-Domain Generative
Dialogue Systems [48.99561874529323]
オープンドメイン生成対話システムの評価には3つの方法がある。
体系的な比較が欠如しているため、どの指標がより効果的であるかは明らかでない。
本稿では,人間の判断との相関性を大幅に改善できる,新しい,実現可能な学習基準を提案する。
論文 参考訳(メタデータ) (2020-04-06T04:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。