論文の概要: A Systematic Review of User-Centred Evaluation of Explainable AI in Healthcare
- arxiv url: http://arxiv.org/abs/2506.13904v1
- Date: Mon, 16 Jun 2025 18:30:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.206108
- Title: A Systematic Review of User-Centred Evaluation of Explainable AI in Healthcare
- Title(参考訳): 医療における説明可能なAIのユーザ中心評価の体系的レビュー
- Authors: Ivania Donoso-Guzmán, Kristýna Sirka Kacafírková, Maxwell Szymanski, An Jacobs, Denis Parra, Katrien Verbert,
- Abstract要約: 本研究の目的は、医療におけるXAIのユーザエクスペリエンスを特徴付ける、明確に定義された原子特性の枠組みを開発することである。
また,システム特性に基づいて評価戦略を定義するための文脈に敏感なガイドラインも提供する。
- 参考スコア(独自算出の注目度): 1.57531613028502
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite promising developments in Explainable Artificial Intelligence, the practical value of XAI methods remains under-explored and insufficiently validated in real-world settings. Robust and context-aware evaluation is essential, not only to produce understandable explanations but also to ensure their trustworthiness and usability for intended users, but tends to be overlooked because of no clear guidelines on how to design an evaluation with users. This study addresses this gap with two main goals: (1) to develop a framework of well-defined, atomic properties that characterise the user experience of XAI in healthcare; and (2) to provide clear, context-sensitive guidelines for defining evaluation strategies based on system characteristics. We conducted a systematic review of 82 user studies, sourced from five databases, all situated within healthcare settings and focused on evaluating AI-generated explanations. The analysis was guided by a predefined coding scheme informed by an existing evaluation framework, complemented by inductive codes developed iteratively. The review yields three key contributions: (1) a synthesis of current evaluation practices, highlighting a growing focus on human-centred approaches in healthcare XAI; (2) insights into the interrelations among explanation properties; and (3) an updated framework and a set of actionable guidelines to support interdisciplinary teams in designing and implementing effective evaluation strategies for XAI systems tailored to specific application contexts.
- Abstract(参考訳): Explainable Artificial Intelligenceの有望な発展にもかかわらず、XAI手法の実用的価値はいまだ未探索であり、現実の環境では不十分である。
ロバストでコンテキスト対応な評価は、理解可能な説明を生み出すだけでなく、意図したユーザに対する信頼性とユーザビリティを確保するために必要であると同時に、ユーザによる評価の設計方法に関する明確なガイドラインが存在しないため、見過ごされる傾向がある。
本研究は,(1)医療におけるXAIのユーザエクスペリエンスを特徴付ける,明確に定義された原子特性の枠組みを開発すること,(2)システム特性に基づいて評価戦略を定義するための明確で文脈に敏感なガイドラインを提供すること,の2つの目的に対処する。
われわれは,5つのデータベースから得られた82のユーザスタディの体系的レビューを行った。
この分析は、既存の評価フレームワークによって事前に定義された符号化方式によって導出され、反復的に開発された帰納的コードによって補完される。
1)医療における人間中心のアプローチに焦点をあてた現在の評価プラクティスの合成,(2)説明特性間の相互関係に関する洞察,(3)特定のアプリケーションコンテキストに合わせたXAIシステムの効果的な評価戦略を設計・実施するための学際的チームを支援するためのフレームワークと実行可能なガイドラインのセット。
関連論文リスト
- Evaluating Explainability: A Framework for Systematic Assessment and Reporting of Explainable AI Features [2.4458403938995064]
説明可能なAI機能の評価と報告を行うフレームワークを提案する。
評価の枠組みは,(1)類似した入力に対する説明のばらつきの定量化,2)説明が真実にどの程度近いかの定式化,3)説明とモデル内部機構の整合性の評価,4)タスク性能への影響評価の4つの基準に基づく。
論文 参考訳(メタデータ) (2025-06-16T18:51:46Z) - SPHERE: An Evaluation Card for Human-AI Systems [75.0887588648484]
本稿では,5つの重要次元を含む評価カードSPHEREを提案する。
我々はSPHEREを用いた39の人間AIシステムのレビューを行い、現在の評価実践と改善の分野の概要を述べる。
論文 参考訳(メタデータ) (2025-03-24T20:17:20Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Learning to Align Multi-Faceted Evaluation: A Unified and Robust Framework [61.38174427966444]
大規模言語モデル(LLM)は、様々なシナリオにおける自動評価のために、より広く使われている。
従来の研究では、強力なプロプライエタリモデルの評価と判断を再現するために、オープンソースのLLMを微調整しようと試みてきた。
本稿では,評価基準を適応的に定式化し,テキストベースとコード駆動分析の両方を合成する新しい評価フレームワークARJudgeを提案する。
論文 参考訳(メタデータ) (2025-02-26T06:31:45Z) - A Unified Framework for Evaluating the Effectiveness and Enhancing the Transparency of Explainable AI Methods in Real-World Applications [2.0681376988193843]
AIモデルの特徴である"ブラックボックス"は、解釈可能性、透明性、信頼性を制約する。
本研究では,AIモデルによる説明の正確性,解釈可能性,堅牢性,公正性,完全性を評価するための統合XAI評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-05T05:30:10Z) - Towards a Comprehensive Human-Centred Evaluation Framework for
Explainable AI [1.7222662622390634]
本稿では,レコメンデータシステムに使用されるユーザ中心評価フレームワークを適用することを提案する。
我々は、説明的側面、説明的特性を要約し、それらの関係を示し、これらの特性を測定する分類指標を統合する。
論文 参考訳(メタデータ) (2023-07-31T09:20:16Z) - The Meta-Evaluation Problem in Explainable AI: Identifying Reliable
Estimators with MetaQuantus [10.135749005469686]
説明可能なAI(XAI)分野における未解決課題の1つは、説明方法の品質を最も確実に見積もる方法を決定することである。
我々は、XAIの異なる品質推定器のメタ評価を通じてこの問題に対処する。
我々の新しいフレームワークMetaQuantusは、品質推定器の2つの相補的な性能特性を解析する。
論文 参考訳(メタデータ) (2023-02-14T18:59:02Z) - Connecting Algorithmic Research and Usage Contexts: A Perspective of
Contextualized Evaluation for Explainable AI [65.44737844681256]
説明可能なAI(XAI)を評価する方法に関するコンセンサスの欠如は、この分野の進歩を妨げる。
このギャップを埋める一つの方法は、異なるユーザ要求を考慮に入れた評価方法を開発することである、と我々は主張する。
論文 参考訳(メタデータ) (2022-06-22T05:17:33Z) - From Anecdotal Evidence to Quantitative Evaluation Methods: A Systematic
Review on Evaluating Explainable AI [3.7592122147132776]
我々は,説明の質を総合的に評価するために評価すべき,コンパクト性や正確性などの12の概念的特性を同定する。
その結果,3件中1件が逸話的証拠でのみ評価され,5件中1件がユーザで評価されていることがわかった。
この体系的な評価手法の収集は、研究者や実践者に、新しいXAI手法と既存のXAI手法を徹底的に検証、ベンチマーク、比較するための具体的なツールを提供する。
論文 参考訳(メタデータ) (2022-01-20T13:23:20Z) - Opportunities of a Machine Learning-based Decision Support System for
Stroke Rehabilitation Assessment [64.52563354823711]
リハビリテーションアセスメントは、患者の適切な介入を決定するために重要である。
現在の評価の実践は、主にセラピストの経験に依存しており、セラピストの可用性が限られているため、アセスメントは頻繁に実施される。
我々は、強化学習を用いて評価の健全な特徴を識別できるインテリジェントな意思決定支援システムを開発した。
論文 参考訳(メタデータ) (2020-02-27T17:04:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。