論文の概要: Radiology's Last Exam (RadLE): Benchmarking Frontier Multimodal AI Against Human Experts and a Taxonomy of Visual Reasoning Errors in Radiology
- arxiv url: http://arxiv.org/abs/2509.25559v1
- Date: Mon, 29 Sep 2025 22:31:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.352604
- Title: Radiology's Last Exam (RadLE): Benchmarking Frontier Multimodal AI Against Human Experts and a Taxonomy of Visual Reasoning Errors in Radiology
- Title(参考訳): 放射線学最後の成果(RadLE):放射線学における人的専門家に対するフロンティア・マルチモーダルAIのベンチマークと視覚的推論誤差の分類
- Authors: Suvrankar Datta, Divya Buchireddygari, Lakshmi Vennela Chowdary Kaza, Mrudula Bhalke, Kautik Singh, Ayush Pandey, Sonit Sai Vasipalli, Upasana Karnwal, Hakikat Bir Singh Bhatti, Bhavya Ratan Maroo, Sanjana Hebbar, Rahul Joseph, Gurkawal Kaur, Devyani Singh, Akhil V, Dheeksha Devasya Shama Prasad, Nishtha Mahajan, Ayinaparthi Arisha, Rajesh Vanagundi, Reet Nandy, Kartik Vuthoo, Snigdhaa Rajvanshi, Nikhileswar Kondaveeti, Suyash Gunjal, Rishabh Jain, Rajat Jain, Anurag Agrawal,
- Abstract要約: 大規模言語モデル(LLM)や視覚言語モデル(VLM)といった一般的なマルチモーダルAIシステムは、臨床医や患者からもアクセスされるようになっている。
複数の画像モダリティにまたがる50の専門レベルの「スポット診断」のベンチマークを作成した。
我々は,フロンティアAIモデルの性能を,ボード認定放射線科医や放射線学研修生に対して評価した。
- 参考スコア(独自算出の注目度): 2.626353375402704
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Generalist multimodal AI systems such as large language models (LLMs) and vision language models (VLMs) are increasingly accessed by clinicians and patients alike for medical image interpretation through widely available consumer-facing chatbots. Most evaluations claiming expert level performance are on public datasets containing common pathologies. Rigorous evaluation of frontier models on difficult diagnostic cases remains limited. We developed a pilot benchmark of 50 expert-level "spot diagnosis" cases across multiple imaging modalities to evaluate the performance of frontier AI models against board-certified radiologists and radiology trainees. To mirror real-world usage, the reasoning modes of five popular frontier AI models were tested through their native web interfaces, viz. OpenAI o3, OpenAI GPT-5, Gemini 2.5 Pro, Grok-4, and Claude Opus 4.1. Accuracy was scored by blinded experts, and reproducibility was assessed across three independent runs. GPT-5 was additionally evaluated across various reasoning modes. Reasoning quality errors were assessed and a taxonomy of visual reasoning errors was defined. Board-certified radiologists achieved the highest diagnostic accuracy (83%), outperforming trainees (45%) and all AI models (best performance shown by GPT-5: 30%). Reliability was substantial for GPT-5 and o3, moderate for Gemini 2.5 Pro and Grok-4, and poor for Claude Opus 4.1. These findings demonstrate that advanced frontier models fall far short of radiologists in challenging diagnostic cases. Our benchmark highlights the present limitations of generalist AI in medical imaging and cautions against unsupervised clinical use. We also provide a qualitative analysis of reasoning traces and propose a practical taxonomy of visual reasoning errors by AI models for better understanding their failure modes, informing evaluation standards and guiding more robust model development.
- Abstract(参考訳): 大規模言語モデル(LLMs)や視覚言語モデル(VLMs)といった汎用的マルチモーダルAIシステムは、医用画像解釈のために広く利用可能なコンシューマ向けチャットボットを通じて、臨床医や患者からアクセスされることが増えている。
専門家レベルのパフォーマンスを主張するほとんどの評価は、共通の病理を含む公開データセットに基づいている。
難診断症例におけるフロンティアモデルの厳密な評価は依然として限られている。
我々は、複数の画像モダリティにまたがる50の専門レベルの「スポット診断」の試験的ベンチマークを開発し、検診医や放射線学研修生に対するフロンティアAIモデルの性能評価を行った。
現実世界の使用を反映するため、5つの人気のあるフロンティアAIモデルの推論モードは、ネイティブなWebインターフェースであるvizを通じてテストされた。
OpenAI O3、OpenAI GPT-5、Gemini 2.5 Pro、Grok-4、Claude Opus 4.1。
精度は盲目の専門家によって評価され、再現性は3つの独立したランで評価された。
GPT-5は様々な推論モードで評価された。
品質エラーを評価し,視覚的推論誤りの分類を定義した。
放射線技師は、診断精度が最も高く(83%)、訓練生(45%)、全AIモデル(GPT-5:30%)を上回りました。
GPT-5とo3は信頼性、Gemini 2.5 ProとGrok-4は適度、Claude Opus 4.1は信頼性に乏しかった。
これらの結果から, 高度なフロンティアモデルでは, 診断に難渋する症例では, 放射線科医には程遠いことが示唆された。
我々のベンチマークでは、医用画像におけるジェネラリストAIの現在の限界と、教師なし臨床使用に対する警告を強調している。
また、推論トレースの質的分析を行い、AIモデルによる視覚的推論エラーの実践的分類を提案し、その失敗モードをよりよく理解し、評価基準を通知し、より堅牢なモデル開発を導く。
関連論文リスト
- RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。
RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文 参考訳(メタデータ) (2025-09-24T10:36:14Z) - How to Evaluate Medical AI [4.23552814358972]
アルゴリズム診断(RPAD, RRAD)の相対精度とリコールについて紹介する。
RPADとRADは、AIの出力を単一の参照ではなく複数の専門家の意見と比較する。
大規模な研究によると、DeepSeek-V3のようなトップパフォーマンスモデルは、専門家のコンセンサスに匹敵する一貫性を達成している。
論文 参考訳(メタデータ) (2025-09-15T14:01:22Z) - Design and Validation of a Responsible Artificial Intelligence-based System for the Referral of Diabetic Retinopathy Patients [65.57160385098935]
糖尿病網膜症の早期発見は、視力喪失のリスクを最大95%減少させる可能性がある。
我々は、AIライフサイクル全体にわたる倫理的原則を取り入れた、DRスクリーニングのための責任あるAIシステムであるRAIS-DRを開発した。
当科におけるRAIS-DRをFDA認可のEyeArtシステムと比較した。
論文 参考訳(メタデータ) (2025-08-17T21:54:11Z) - ReXVQA: A Large-scale Visual Question Answering Benchmark for Generalist Chest X-ray Understanding [3.5568372183159203]
ReXVQAは胸部X線検査における視覚的質問応答(VQA)の最大かつ最も包括的なベンチマークである。
約696,000の質問と、トレーニング、検証、テストセットにわたる16万の胸部X線研究のペアで構成されている。
我々は,MedGemma-4B-it,Qwen2.5-VL,Janus-Pro-7B,Eagle2-9Bを含む8つの最先端マルチモーダル言語モデルを評価する。
論文 参考訳(メタデータ) (2025-06-04T18:11:59Z) - Potential of Multimodal Large Language Models for Data Mining of Medical Images and Free-text Reports [51.45762396192655]
特にGemini-Vision-Series (Gemini) と GPT-4-Series (GPT-4) は、コンピュータビジョンのための人工知能のパラダイムシフトを象徴している。
本研究は,14の医用画像データセットを対象に,Gemini,GPT-4,および4つの一般的な大規模モデルの性能評価を行った。
論文 参考訳(メタデータ) (2024-07-08T09:08:42Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Leveraging Professional Radiologists' Expertise to Enhance LLMs'
Evaluation for Radiology Reports [22.599250713630333]
提案手法は,Large Language Models (LLMs) を用いた専門的放射線技師の専門知識を相乗化する。
我々のアプローチは、LLM評価を放射線学の基準と整合させ、人間とAIが生成したレポートの詳細な比較を可能にする。
実験の結果, 詳細な GPT-4 (5-shot) モデルでは0.48 のスコアが得られ, METEOR のスコアは0.19 を上回った。
論文 参考訳(メタデータ) (2024-01-29T21:24:43Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。