論文の概要: Towards a Comprehensive Human-Centred Evaluation Framework for
Explainable AI
- arxiv url: http://arxiv.org/abs/2308.06274v1
- Date: Mon, 31 Jul 2023 09:20:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-20 16:40:50.074859
- Title: Towards a Comprehensive Human-Centred Evaluation Framework for
Explainable AI
- Title(参考訳): 説明可能なAIのための総合的人間中心評価フレームワークを目指して
- Authors: Ivania Donoso-Guzm\'an, Jeroen Ooge, Denis Parra, Katrien Verbert
- Abstract要約: 本稿では,レコメンデータシステムに使用されるユーザ中心評価フレームワークを適用することを提案する。
我々は、説明的側面、説明的特性を要約し、それらの関係を示し、これらの特性を測定する分類指標を統合する。
- 参考スコア(独自算出の注目度): 1.7222662622390634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While research on explainable AI (XAI) is booming and explanation techniques
have proven promising in many application domains, standardised human-centred
evaluation procedures are still missing. In addition, current evaluation
procedures do not assess XAI methods holistically in the sense that they do not
treat explanations' effects on humans as a complex user experience. To tackle
this challenge, we propose to adapt the User-Centric Evaluation Framework used
in recommender systems: we integrate explanation aspects, summarise explanation
properties, indicate relations between them, and categorise metrics that
measure these properties. With this comprehensive evaluation framework, we hope
to contribute to the human-centred standardisation of XAI evaluation.
- Abstract(参考訳): 説明可能なAI(XAI)の研究は盛んであり、多くのアプリケーションドメインで説明技術が有望であることが証明されているが、標準化された人間中心の評価手順はまだ欠けている。
また,現在の評価手順では,人間に対する説明の影響を複雑なユーザ体験として扱わないという意味で,XAI手法を全体評価していない。
この課題に取り組むために、レコメンダシステムで使用されるユーザ中心の評価フレームワークを適用することを提案する。説明アスペクトの統合、説明プロパティの要約、それらの関係の指示、これらの特性を測定するメトリクスの分類である。
この総合的な評価枠組みにより、XAI評価の人間中心の標準化に貢献したい。
関連論文リスト
- Dimensions of Generative AI Evaluation Design [51.541816010127256]
我々は、GenAI評価設計に関わる重要な選択を捉えるための一般的な次元のセットを提案する。
これらの次元には、評価設定、タスクタイプ、入力ソース、インタラクションスタイル、期間、メトリックタイプ、スコアリング方法が含まれる。
論文 参考訳(メタデータ) (2024-11-19T18:25:30Z) - Hierarchical Evaluation Framework: Best Practices for Human Evaluation [17.91641890651225]
NLPハマーにおける広く受け入れられている評価基準の欠如は、異なるシステム間での公正な比較と、普遍的な評価基準の確立である。
我々は,NLPシステムの性能をより包括的に表現するための,独自の階層的評価フレームワークを開発した。
今後の課題として,NLPシステムの評価を行う上で,提案するフレームワークの時間節約効果について検討する。
論文 参考訳(メタデータ) (2023-10-03T09:46:02Z) - An Experimental Investigation into the Evaluation of Explainability
Methods [60.54170260771932]
この研究は、9つの最先端XAI法と3つのダミー法(例えば、ランダム・サリエンシ・マップ)に適用された14の異なるメトリクスを比較した。
実験の結果、これらの指標のどれが高い相関関係を示し、潜在的な冗長性を示している。
論文 参考訳(メタデータ) (2023-05-25T08:07:07Z) - A System's Approach Taxonomy for User-Centred XAI: A Survey [0.6882042556551609]
本稿では,一般システム理論の原理に基づく総合的,包括的でユーザ中心のXAI分類法を提案する。
これは、開発者とエンドユーザの両方を含むすべてのユーザタイプに対するXAIアプローチの適切性を評価する基盤を提供する。
論文 参考訳(メタデータ) (2023-03-06T00:50:23Z) - The Meta-Evaluation Problem in Explainable AI: Identifying Reliable
Estimators with MetaQuantus [10.135749005469686]
説明可能なAI(XAI)分野における未解決課題の1つは、説明方法の品質を最も確実に見積もる方法を決定することである。
我々は、XAIの異なる品質推定器のメタ評価を通じてこの問題に対処する。
我々の新しいフレームワークMetaQuantusは、品質推定器の2つの相補的な性能特性を解析する。
論文 参考訳(メタデータ) (2023-02-14T18:59:02Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Towards Human Cognition Level-based Experiment Design for Counterfactual
Explanations (XAI) [68.8204255655161]
XAI研究の重点は、より理解を深めるために、より実践的な説明アプローチに変わったようだ。
認知科学研究がXAIの進歩に大きく影響を与える可能性のある領域は、ユーザの知識とフィードバックを評価することである。
本研究では,異なる認知レベルの理解に基づく説明の生成と評価を実験する枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-31T19:20:22Z) - Connecting Algorithmic Research and Usage Contexts: A Perspective of
Contextualized Evaluation for Explainable AI [65.44737844681256]
説明可能なAI(XAI)を評価する方法に関するコンセンサスの欠如は、この分野の進歩を妨げる。
このギャップを埋める一つの方法は、異なるユーザ要求を考慮に入れた評価方法を開発することである、と我々は主張する。
論文 参考訳(メタデータ) (2022-06-22T05:17:33Z) - From Anecdotal Evidence to Quantitative Evaluation Methods: A Systematic
Review on Evaluating Explainable AI [3.7592122147132776]
我々は,説明の質を総合的に評価するために評価すべき,コンパクト性や正確性などの12の概念的特性を同定する。
その結果,3件中1件が逸話的証拠でのみ評価され,5件中1件がユーザで評価されていることがわかった。
この体系的な評価手法の収集は、研究者や実践者に、新しいXAI手法と既存のXAI手法を徹底的に検証、ベンチマーク、比較するための具体的なツールを提供する。
論文 参考訳(メタデータ) (2022-01-20T13:23:20Z) - Crowdsourcing Evaluation of Saliency-based XAI Methods [18.18238526746074]
本稿では,クラウドソーシングによるXAI手法の評価手法を提案する。
我々の手法は人間の計算ゲーム「Peek-a-boom」にインスパイアされている。
自動評価と群集評価を併用した2つのデータセット上で,様々なXAI手法の精度マップを評価した。
論文 参考訳(メタデータ) (2021-06-27T17:37:53Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。