論文の概要: From Anecdotal Evidence to Quantitative Evaluation Methods: A Systematic
Review on Evaluating Explainable AI
- arxiv url: http://arxiv.org/abs/2201.08164v1
- Date: Thu, 20 Jan 2022 13:23:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-21 14:27:25.600989
- Title: From Anecdotal Evidence to Quantitative Evaluation Methods: A Systematic
Review on Evaluating Explainable AI
- Title(参考訳): 逸話的エビデンスから定量的評価方法:説明可能なAIの評価に関する体系的レビュー
- Authors: Meike Nauta, Jan Trienes, Shreyasi Pathak, Elisa Nguyen, Michelle
Peters, Yasmin Schmitt, J\"org Schl\"otterer, Maurice van Keulen, Christin
Seifert
- Abstract要約: 我々は,説明の質を総合的に評価するために評価すべき,コンパクト性や正確性などの12の概念的特性を同定する。
その結果,3件中1件が逸話的証拠でのみ評価され,5件中1件がユーザで評価されていることがわかった。
この体系的な評価手法の収集は、研究者や実践者に、新しいXAI手法と既存のXAI手法を徹底的に検証、ベンチマーク、比較するための具体的なツールを提供する。
- 参考スコア(独自算出の注目度): 3.7592122147132776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rising popularity of explainable artificial intelligence (XAI) to
understand high-performing black boxes, also raised the question of how to
evaluate explanations of machine learning (ML) models. While interpretability
and explainability are often presented as a subjectively validated binary
property, we consider it a multi-faceted concept. We identify 12 conceptual
properties, such as Compactness and Correctness, that should be evaluated for
comprehensively assessing the quality of an explanation. Our so-called Co-12
properties serve as categorization scheme for systematically reviewing the
evaluation practice of more than 300 papers published in the last 7 years at
major AI and ML conferences that introduce an XAI method. We find that 1 in 3
papers evaluate exclusively with anecdotal evidence, and 1 in 5 papers evaluate
with users. We also contribute to the call for objective, quantifiable
evaluation methods by presenting an extensive overview of quantitative XAI
evaluation methods. This systematic collection of evaluation methods provides
researchers and practitioners with concrete tools to thoroughly validate,
benchmark and compare new and existing XAI methods. This also opens up
opportunities to include quantitative metrics as optimization criteria during
model training in order to optimize for accuracy and interpretability
simultaneously.
- Abstract(参考訳): 高性能なブラックボックスを理解するための説明可能な人工知能(XAI)の人気が高まり、機械学習(ML)モデルの説明を評価する方法についても疑問が持ち上がった。
解釈可能性と説明可能性はしばしば主観的に検証されたバイナリプロパティとして提示されるが、多面的な概念と考える。
説明の質を包括的に評価するために評価すべき12の概念的性質,すなわちコンパクト性と正確性を明らかにする。
私たちのいわゆるCo-12プロパティは、XAIメソッドを導入した主要なAIおよびMLカンファレンスで過去7年間に発行された300以上の論文の評価プラクティスを体系的にレビューするための分類スキームとして役立ちます。
その結果,3件中1件が逸話的証拠でのみ評価され,5件中1件がユーザで評価されていることがわかった。
また,定量的XAI評価手法の概要を概観することにより,客観的定量評価手法の要求にも貢献する。
この体系的な評価手法の収集は、研究者や実践者に対して、新しいxaiメソッドと既存のxaiメソッドを徹底的に検証、ベンチマーク、比較するための具体的なツールを提供する。
これはまた、精度と解釈可能性を同時に最適化するために、モデルのトレーニング中に量的メトリクスを最適化基準として含める機会を開く。
関連論文リスト
- BEExAI: Benchmark to Evaluate Explainable AI [0.9176056742068812]
本稿では,ポストホックXAI手法の大規模比較を可能にするベンチマークツールであるBEExAIを提案する。
説明の質と正確性を測定するための信頼性の高い方法の必要性が重要になっていると論じる。
論文 参考訳(メタデータ) (2024-07-29T11:21:17Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - Explaining Explainability: Towards Deeper Actionable Insights into Deep
Learning through Second-order Explainability [70.60433013657693]
2階説明可能なAI(SOXAI)は、最近インスタンスレベルからデータセットレベルまで説明可能なAI(XAI)を拡張するために提案されている。
そこで本研究では,SOXAIの動作可能な洞察に基づくトレーニングセットから無関係な概念を除外することで,モデルの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-06-14T23:24:01Z) - An Experimental Investigation into the Evaluation of Explainability
Methods [60.54170260771932]
この研究は、9つの最先端XAI法と3つのダミー法(例えば、ランダム・サリエンシ・マップ)に適用された14の異なるメトリクスを比較した。
実験の結果、これらの指標のどれが高い相関関係を示し、潜在的な冗長性を示している。
論文 参考訳(メタデータ) (2023-05-25T08:07:07Z) - Better Understanding Differences in Attribution Methods via Systematic Evaluations [57.35035463793008]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
これらの評価手法を用いて、広範囲のモデルにおいて広く用いられている属性手法の長所と短所について検討する。
論文 参考訳(メタデータ) (2023-03-21T14:24:58Z) - The Meta-Evaluation Problem in Explainable AI: Identifying Reliable
Estimators with MetaQuantus [10.135749005469686]
説明可能なAI(XAI)分野における未解決課題の1つは、説明方法の品質を最も確実に見積もる方法を決定することである。
我々は、XAIの異なる品質推定器のメタ評価を通じてこの問題に対処する。
我々の新しいフレームワークMetaQuantusは、品質推定器の2つの相補的な性能特性を解析する。
論文 参考訳(メタデータ) (2023-02-14T18:59:02Z) - Crowdsourcing Evaluation of Saliency-based XAI Methods [18.18238526746074]
本稿では,クラウドソーシングによるXAI手法の評価手法を提案する。
我々の手法は人間の計算ゲーム「Peek-a-boom」にインスパイアされている。
自動評価と群集評価を併用した2つのデータセット上で,様々なXAI手法の精度マップを評価した。
論文 参考訳(メタデータ) (2021-06-27T17:37:53Z) - Developing a Fidelity Evaluation Approach for Interpretable Machine
Learning [2.2448567386846916]
複雑なモデルの解釈性を改善するために、説明可能なAI(XAI)メソッドが使用される。
特に、ブラックボックスの説明の忠実さを評価するには、さらなる発展が必要である。
本評価は, 基礎となる予測モデルの内部メカニズム, 使用法の内部メカニズム, モデルおよびデータの複雑さが, すべて説明忠実性に影響を与えることを示唆している。
論文 参考訳(メタデータ) (2021-06-16T00:21:16Z) - A Diagnostic Study of Explainability Techniques for Text Classification [52.879658637466605]
既存の説明可能性技術を評価するための診断特性のリストを作成する。
そこで本研究では, モデルの性能と有理性との整合性の関係を明らかにするために, 説明可能性手法によって割り当てられた有理性スコアと有理性入力領域の人間のアノテーションを比較した。
論文 参考訳(メタデータ) (2020-09-25T12:01:53Z) - PONE: A Novel Automatic Evaluation Metric for Open-Domain Generative
Dialogue Systems [48.99561874529323]
オープンドメイン生成対話システムの評価には3つの方法がある。
体系的な比較が欠如しているため、どの指標がより効果的であるかは明らかでない。
本稿では,人間の判断との相関性を大幅に改善できる,新しい,実現可能な学習基準を提案する。
論文 参考訳(メタデータ) (2020-04-06T04:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。