論文の概要: How to Evaluate Medical AI
- arxiv url: http://arxiv.org/abs/2509.11941v2
- Date: Thu, 25 Sep 2025 09:31:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 14:16:56.068207
- Title: How to Evaluate Medical AI
- Title(参考訳): 医療AIの評価方法
- Authors: Ilia Kopanichuk, Petr Anokhin, Vladimir Shaposhnikov, Vladimir Makharev, Ekaterina Tsapieva, Iaroslav Bespalov, Dmitry V. Dylov, Ivan Oseledets,
- Abstract要約: アルゴリズム診断(RPAD, RRAD)の相対精度とリコールについて紹介する。
RPADとRADは、AIの出力を単一の参照ではなく複数の専門家の意見と比較する。
大規模な研究によると、DeepSeek-V3のようなトップパフォーマンスモデルは、専門家のコンセンサスに匹敵する一貫性を達成している。
- 参考スコア(独自算出の注目度): 4.23552814358972
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The integration of artificial intelligence (AI) into medical diagnostic workflows requires robust and consistent evaluation methods to ensure reliability, clinical relevance, and the inherent variability in expert judgments. Traditional metrics like precision and recall often fail to account for the inherent variability in expert judgments, leading to inconsistent assessments of AI performance. Inter-rater agreement statistics like Cohen's Kappa are more reliable but they lack interpretability. We introduce Relative Precision and Recall of Algorithmic Diagnostics (RPAD and RRAD) - a new evaluation metrics that compare AI outputs against multiple expert opinions rather than a single reference. By normalizing performance against inter-expert disagreement, these metrics provide a more stable and realistic measure of the quality of predicted diagnosis. In addition to the comprehensive analysis of diagnostic quality measures, our study contains a very important side result. Our evaluation methodology allows us to avoid selecting diagnoses from a limited list when evaluating a given case. Instead, both the models being tested and the examiners verifying them arrive at a free-form diagnosis. In this automated methodology for establishing the identity of free-form clinical diagnoses, a remarkable 98% accuracy becomes attainable. We evaluate our approach using 360 medical dialogues, comparing multiple large language models (LLMs) against a panel of physicians. Large-scale study shows that top-performing models, such as DeepSeek-V3, achieve consistency on par with or exceeding expert consensus. Moreover, we demonstrate that expert judgments exhibit significant variability - often greater than that between AI and humans. This finding underscores the limitations of any absolute metrics and supports the need to adopt relative metrics in medical AI.
- Abstract(参考訳): 人工知能(AI)を医療診断ワークフローに統合するには、信頼性、臨床関連性、および専門家の判断における固有の多様性を保証するために、堅牢で一貫した評価方法が必要である。
精度やリコールといった従来のメトリクスは、専門家の判断に固有の変動を考慮できないことが多く、AIのパフォーマンスの一貫性のない評価につながります。
Cohen's Kappaのようなラター間合意統計は信頼性が高いが、解釈性に欠ける。
アルゴリズム診断の相対精度とリコール(RPADとRAD)は、AIの出力を単一の参照ではなく複数の専門家の意見と比較する新しい評価指標である。
専門家間の不一致に対するパフォーマンスの正規化によって、これらの指標は予測された診断の品質をより安定かつ現実的に測定する。
診断品質測定の包括的分析に加えて,本研究は極めて重要な副作用を含む。
評価手法により,特定の症例を評価する際に,限られたリストから診断を選択することを避けることができる。
代わりに、テスト対象のモデルと検証対象のモデルの両方が、フリーフォームで診断される。
フリーフォーム臨床診断の同一性を確立するための自動化手法では, 98%の精度が達成できる。
医療対話を360回実施し,複数大言語モデル (LLM) と医師パネルの比較を行った。
大規模な研究によると、DeepSeek-V3のようなトップパフォーマンスモデルは、専門家のコンセンサスに匹敵する一貫性を達成している。
さらに、専門家による判断は、しばしばAIと人間との差異よりも大きなばらつきを示します。
この発見は、絶対的なメトリクスの限界を強調し、医療AIに相対的なメトリクスを採用する必要性をサポートする。
関連論文リスト
- Sequential Diagnosis with Language Models [21.22416732642907]
本稿では,304症例を段階的に診断するシークエンシャル診断ベンチマークを紹介する。
成績は、診断精度だけでなく、医師の診察や検査の費用によって評価される。
また,医師のパネルを模擬したモデル診断オーケストレータであるMAI診断オーケストレータ(MAI-DxO)についても紹介する。
論文 参考訳(メタデータ) (2025-06-27T17:27:26Z) - Automated Real-time Assessment of Intracranial Hemorrhage Detection AI Using an Ensembled Monitoring Model (EMM) [1.8767322781894276]
本稿では,複数の専門家レビューを用いた臨床コンセンサスプラクティスに触発されたEMM(Ensembled Monitoring Model)を紹介する。
EMMは内部AIコンポーネントや中間出力へのアクセスを必要とせずに独立して動作する。
EMMがAI生成予測の信頼度をうまく分類し、異なる行動を提案することを実証する。
論文 参考訳(メタデータ) (2025-05-16T22:50:42Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Uncertainty-aware abstention in medical diagnosis based on medical texts [87.88110503208016]
本研究は,AI支援医療診断における信頼性の重要課題について論じる。
本研究は,診断に自信がなければ,診断システムによる意思決定の回避を可能にする選択予測手法に焦点をあてる。
我々は、選択予測タスクにおける信頼性を高めるための新しい最先端手法であるHUQ-2を紹介する。
論文 参考訳(メタデータ) (2025-02-25T10:15:21Z) - Unified Uncertainty Estimation for Cognitive Diagnosis Models [70.46998436898205]
本稿では,幅広い認知診断モデルに対する統一的不確実性推定手法を提案する。
診断パラメータの不確かさをデータ・アスペクトとモデル・アスペクトに分解する。
本手法は有効であり,認知診断の不確実性に関する有用な知見を提供することができる。
論文 参考訳(メタデータ) (2024-03-09T13:48:20Z) - Evaluating AI systems under uncertain ground truth: a case study in dermatology [43.8328264420381]
不確実性を無視することは、モデル性能の過度に楽観的な推定につながることを示す。
皮膚状態の分類では,データセットの大部分が重大な真理不確実性を示すことが判明した。
論文 参考訳(メタデータ) (2023-07-05T10:33:45Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Explaining medical AI performance disparities across sites with
confounder Shapley value analysis [8.785345834486057]
マルチサイト評価は、このような格差を診断する鍵となる。
本フレームワークは,各種類のバイアスが全体の性能差に与える影響を定量化する手法を提供する。
本研究は, 深部学習モデルを用いて気胸の有無を検知し, その有用性を実証するものである。
論文 参考訳(メタデータ) (2021-11-12T18:54:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。