論文の概要: The Meta-Evaluation Problem in Explainable AI: Identifying Reliable
Estimators with MetaQuantus
- arxiv url: http://arxiv.org/abs/2302.07265v1
- Date: Tue, 14 Feb 2023 18:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-15 14:33:42.292106
- Title: The Meta-Evaluation Problem in Explainable AI: Identifying Reliable
Estimators with MetaQuantus
- Title(参考訳): 説明可能なAIにおけるメタ評価問題:MetaQuantusを用いた信頼度推定器の同定
- Authors: Anna Hedstr\"om, Philine Bommer, Kristoffer K. Wickstr{\o}m, Wojciech
Samek, Sebastian Lapuschkin, Marina M.-C. H\"ohne
- Abstract要約: 評価手法の2つの相補的な性能特性をメタ評価する強力なフレームワークであるMetaQuantusを提案する。
私たちは、XAI研究者や機械学習(ML)実践者のための開発ツールとして、オープンソースライセンス下で作業をリリースしています。
- 参考スコア(独自算出の注目度): 10.135749005469686
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Explainable AI (XAI) is a rapidly evolving field that aims to improve
transparency and trustworthiness of AI systems to humans. One of the unsolved
challenges in XAI is estimating the performance of these explanation methods
for neural networks, which has resulted in numerous competing metrics with
little to no indication of which one is to be preferred. In this paper, to
identify the most reliable evaluation method in a given explainability context,
we propose MetaQuantus -- a simple yet powerful framework that meta-evaluates
two complementary performance characteristics of an evaluation method: its
resilience to noise and reactivity to randomness. We demonstrate the
effectiveness of our framework through a series of experiments, targeting
various open questions in XAI, such as the selection of explanation methods and
optimisation of hyperparameters of a given metric. We release our work under an
open-source license to serve as a development tool for XAI researchers and
Machine Learning (ML) practitioners to verify and benchmark newly constructed
metrics (i.e., ``estimators'' of explanation quality). With this work, we
provide clear and theoretically-grounded guidance for building reliable
evaluation methods, thus facilitating standardisation and reproducibility in
the field of XAI.
- Abstract(参考訳): 説明可能なAI(XAI)は、AIシステムの透明性と信頼性を改善することを目的とした、急速に進化する分野である。
xaiの未解決の課題の1つは、ニューラルネットワークに対するこれらの説明方法のパフォーマンスを推定することである。
本稿では,与えられた説明可能性コンテキストにおいて最も信頼性の高い評価手法を明らかにするために,評価手法の2つの相補的性能特性をメタ評価するシンプルかつ強力なフレームワークであるmetaquantusを提案する。
提案手法は,説明方法の選択や測定値のハイパーパラメータの最適化など,xaiのさまざまなオープン質問を対象とする一連の実験を通じて,フレームワークの有効性を実証する。
我々は、XAI研究者や機械学習(ML)実践者が新しく構築されたメトリクス(例えば、説明品質の‘推定値’)を検証し、ベンチマークするための開発ツールとして、オープンソースライセンス下で作業をリリースします。
本研究は,信頼性評価手法を構築するための明確かつ理論的なガイダンスを提供し,XAI分野における標準化と再現性を促進する。
関連論文リスト
- BEExAI: Benchmark to Evaluate Explainable AI [0.9176056742068812]
本稿では,ポストホックXAI手法の大規模比較を可能にするベンチマークツールであるBEExAIを提案する。
説明の質と正確性を測定するための信頼性の高い方法の必要性が重要になっていると論じる。
論文 参考訳(メタデータ) (2024-07-29T11:21:17Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - An Experimental Investigation into the Evaluation of Explainability
Methods [60.54170260771932]
この研究は、9つの最先端XAI法と3つのダミー法(例えば、ランダム・サリエンシ・マップ)に適用された14の異なるメトリクスを比較した。
実験の結果、これらの指標のどれが高い相関関係を示し、潜在的な冗長性を示している。
論文 参考訳(メタデータ) (2023-05-25T08:07:07Z) - SAFARI: Versatile and Efficient Evaluations for Robustness of
Interpretability [11.230696151134367]
ディープラーニング(DL)の解釈可能性(Interpretability of Deep Learning)は、信頼できるAIの障壁である。
XAI法を考慮すれば, DLの堅牢性を評価することが不可欠である。
論文 参考訳(メタデータ) (2022-08-19T16:07:22Z) - Uncertainty-Driven Action Quality Assessment [67.20617610820857]
本稿では,複数の判定スコアの多様性を捉えるために,不確実性駆動型AQA (UD-AQA) という新しい確率モデルを提案する。
我々は,AQA回帰損失の再重み付けに使用される各予測の不確かさを推定する。
提案手法は,オリンピックイベントMTL-AQAとFineDivingの3つのベンチマークと,手術スキルJIGSAWSデータセットの3つのベンチマークで比較結果を得た。
論文 参考訳(メタデータ) (2022-07-29T07:21:15Z) - From Anecdotal Evidence to Quantitative Evaluation Methods: A Systematic
Review on Evaluating Explainable AI [3.7592122147132776]
我々は,説明の質を総合的に評価するために評価すべき,コンパクト性や正確性などの12の概念的特性を同定する。
その結果,3件中1件が逸話的証拠でのみ評価され,5件中1件がユーザで評価されていることがわかった。
この体系的な評価手法の収集は、研究者や実践者に、新しいXAI手法と既存のXAI手法を徹底的に検証、ベンチマーク、比較するための具体的なツールを提供する。
論文 参考訳(メタデータ) (2022-01-20T13:23:20Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - Uncertainty-aware Score Distribution Learning for Action Quality
Assessment [91.05846506274881]
行動品質評価(AQA)のための不確実性認識スコア分布学習(USDL)手法を提案する。
具体的には、異なる評価スコアの確率を記述したスコア分布に関連する事例として、アクションを考察する。
微粒なスコアラベルが利用できる状況下では、多パス不確実性を考慮したスコア分布学習法(MUSDL)を考案し、スコアの不整合成分を探索する。
論文 参考訳(メタデータ) (2020-06-13T15:41:29Z) - Ground Truth Evaluation of Neural Network Explanations with CLEVR-XAI [12.680653816836541]
我々は,CLEVR視覚質問応答タスクに基づくXAI手法の基盤的真理に基づく評価フレームワークを提案する。
本フレームワークは,(1)選択的,(2)制御,(3)リアルなテストベッドをニューラルネットワークの説明評価のために提供する。
論文 参考訳(メタデータ) (2020-03-16T14:43:33Z) - What's a Good Prediction? Challenges in evaluating an agent's knowledge [0.9281671380673306]
一般知識の精度と有用性の矛盾を示す。
本稿では,オンライン連続学習環境において連続的に発生する代替評価手法を提案する。
本稿では,その利用による予測評価について初めて考察する。
論文 参考訳(メタデータ) (2020-01-23T21:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。