論文の概要: The Meta-Evaluation Problem in Explainable AI: Identifying Reliable
Estimators with MetaQuantus
- arxiv url: http://arxiv.org/abs/2302.07265v2
- Date: Wed, 19 Jul 2023 12:18:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 17:45:03.694425
- Title: The Meta-Evaluation Problem in Explainable AI: Identifying Reliable
Estimators with MetaQuantus
- Title(参考訳): 説明可能なAIにおけるメタ評価問題:MetaQuantusを用いた信頼度推定器の同定
- Authors: Anna Hedstr\"om, Philine Bommer, Kristoffer K. Wickstr{\o}m, Wojciech
Samek, Sebastian Lapuschkin, Marina M.-C. H\"ohne
- Abstract要約: 説明可能なAI(XAI)分野における未解決課題の1つは、説明方法の品質を最も確実に見積もる方法を決定することである。
我々は、XAIの異なる品質推定器のメタ評価を通じてこの問題に対処する。
我々の新しいフレームワークMetaQuantusは、品質推定器の2つの相補的な性能特性を解析する。
- 参考スコア(独自算出の注目度): 10.135749005469686
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: One of the unsolved challenges in the field of Explainable AI (XAI) is
determining how to most reliably estimate the quality of an explanation method
in the absence of ground truth explanation labels. Resolving this issue is of
utmost importance as the evaluation outcomes generated by competing evaluation
methods (or ''quality estimators''), which aim at measuring the same property
of an explanation method, frequently present conflicting rankings. Such
disagreements can be challenging for practitioners to interpret, thereby
complicating their ability to select the best-performing explanation method. We
address this problem through a meta-evaluation of different quality estimators
in XAI, which we define as ''the process of evaluating the evaluation method''.
Our novel framework, MetaQuantus, analyses two complementary performance
characteristics of a quality estimator: its resilience to noise and reactivity
to randomness, thus circumventing the need for ground truth labels. We
demonstrate the effectiveness of our framework through a series of experiments,
targeting various open questions in XAI such as the selection and
hyperparameter optimisation of quality estimators. Our work is released under
an open-source license (https://github.com/annahedstroem/MetaQuantus) to serve
as a development tool for XAI- and Machine Learning (ML) practitioners to
verify and benchmark newly constructed quality estimators in a given
explainability context. With this work, we provide the community with clear and
theoretically-grounded guidance for identifying reliable evaluation methods,
thus facilitating reproducibility in the field.
- Abstract(参考訳): 説明可能なAI(XAI)分野における未解決課題の1つは、基底真理説明ラベルがない場合に、説明方法の品質を最も確実に見積もる方法を決定することである。
説明方法の同一性を測定することを目的とした競合する評価方法(すなわち「品質評価者」)によって生じる評価結果が、しばしば相反するランキングを示すため、この問題を解決することは極めて重要である。
このような意見の相違は、実践者が解釈することが困難なため、最も優れた説明方法を選択する能力が複雑になる可能性がある。
我々は,XAIにおける品質評価のメタ評価を通じてこの問題に対処し,「評価方法の評価プロセス」と定義する。
提案手法であるmetaquantusは,ノイズに対するレジリエンスとランダム性に対する反応性の2つの相補的性能特性を解析し,基底真理ラベルの必要性を回避した。
我々は,品質推定器の選択やハイパーパラメータ最適化など,XAIにおける様々なオープンな質問を対象とする一連の実験を通じて,フレームワークの有効性を実証する。
私たちの研究はオープンソースライセンス(https://github.com/annahedstroem/metaquantus)でリリースされ、xai-および機械学習(ml)実践者の開発ツールとして、所定の説明可能性コンテキストで新しく構築された品質推定器を検証およびベンチマークします。
そこで本研究では,信頼度の高い評価方法を見極めるための明確かつ理論的に根拠のあるガイダンスをコミュニティに提供し,再現性を高める。
関連論文リスト
- EQUATOR: A Deterministic Framework for Evaluating LLM Reasoning with Open-Ended Questions. # v1.0.0-beta [2.1249213103048414]
本研究では,決定論的スコアと実測精度とロバストな推論評価に着目したEQUATOR評価器を提案する。
ベクトルデータベースを使用して、EQUATORは人間の評価された回答とオープンエンドの質問をペアリングし、より正確でスケーラブルな評価を可能にする。
この枠組みは,高精度な基準を維持しつつ,従来のマルチ選択評価を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2024-12-31T03:56:17Z) - A Comprehensive Survey of Action Quality Assessment: Method and Benchmark [25.694556140797832]
行動品質評価(AQA)は、人間の行動の質を定量的に評価し、人間の判断におけるバイアスを減らす自動評価を提供する。
近年のAQAの進歩は革新的手法を導入しているが、類似の手法は異なる領域にまたがることが多い。
統一されたベンチマークと限定的な計算比較の欠如は、AQAアプローチの一貫性のある評価と公正な評価を妨げている。
論文 参考訳(メタデータ) (2024-12-15T10:47:26Z) - A Unified Framework for Evaluating the Effectiveness and Enhancing the Transparency of Explainable AI Methods in Real-World Applications [2.0681376988193843]
AIモデルの特徴である"ブラックボックス"は、解釈可能性、透明性、信頼性を制約する。
本研究では,AIモデルによる説明の正確性,解釈可能性,堅牢性,公正性,完全性を評価するための統合XAI評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-05T05:30:10Z) - BEExAI: Benchmark to Evaluate Explainable AI [0.9176056742068812]
本稿では,ポストホックXAI手法の大規模比較を可能にするベンチマークツールであるBEExAIを提案する。
説明の質と正確性を測定するための信頼性の高い方法の必要性が重要になっていると論じる。
論文 参考訳(メタデータ) (2024-07-29T11:21:17Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - An Experimental Investigation into the Evaluation of Explainability
Methods [60.54170260771932]
この研究は、9つの最先端XAI法と3つのダミー法(例えば、ランダム・サリエンシ・マップ)に適用された14の異なるメトリクスを比較した。
実験の結果、これらの指標のどれが高い相関関係を示し、潜在的な冗長性を示している。
論文 参考訳(メタデータ) (2023-05-25T08:07:07Z) - From Anecdotal Evidence to Quantitative Evaluation Methods: A Systematic
Review on Evaluating Explainable AI [3.7592122147132776]
我々は,説明の質を総合的に評価するために評価すべき,コンパクト性や正確性などの12の概念的特性を同定する。
その結果,3件中1件が逸話的証拠でのみ評価され,5件中1件がユーザで評価されていることがわかった。
この体系的な評価手法の収集は、研究者や実践者に、新しいXAI手法と既存のXAI手法を徹底的に検証、ベンチマーク、比較するための具体的なツールを提供する。
論文 参考訳(メタデータ) (2022-01-20T13:23:20Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - Uncertainty-aware Score Distribution Learning for Action Quality
Assessment [91.05846506274881]
行動品質評価(AQA)のための不確実性認識スコア分布学習(USDL)手法を提案する。
具体的には、異なる評価スコアの確率を記述したスコア分布に関連する事例として、アクションを考察する。
微粒なスコアラベルが利用できる状況下では、多パス不確実性を考慮したスコア分布学習法(MUSDL)を考案し、スコアの不整合成分を探索する。
論文 参考訳(メタデータ) (2020-06-13T15:41:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。