論文の概要: Advancing Medical Artificial Intelligence Using a Century of Cases
- arxiv url: http://arxiv.org/abs/2509.12194v1
- Date: Mon, 15 Sep 2025 17:54:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.442646
- Title: Advancing Medical Artificial Intelligence Using a Century of Cases
- Title(参考訳): 医療用人工知能の1世紀的活用
- Authors: Thomas A. Buckley, Riccardo Conci, Peter G. Brodeur, Jason Gusdorf, Sourik Beltrán, Bita Behrouzi, Byron Crowe, Jacob Dockterman, Muzzammil Muhammad, Sarah Ohnigian, Andrew Sanchez, James A. Diao, Aashna P. Shah, Daniel Restrepo, Eric S. Rosenberg, Andrew S. Lea, Marinka Zitnik, Scott H. Podolsky, Zahir Kanjee, Raja-Elie E. Abdulnour, Jacob M. Koshy, Adam Rodman, Arjun K. Manrai,
- Abstract要約: 以前のAI評価では、多面的推論とプレゼンテーションスキルに対処することなく、最終診断に焦点を当てていた。
CPC-Benchは10のテキストベースおよびマルチモーダルタスクにまたがるベンチマークです。
私たちは、スライドベースのビデオプレゼンテーションを作成するように設計されたAI議論者である"Dr. CaBot"を開発した。
- 参考スコア(独自算出の注目度): 8.82283040766685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: BACKGROUND: For over a century, the New England Journal of Medicine Clinicopathological Conferences (CPCs) have tested the reasoning of expert physicians and, recently, artificial intelligence (AI). However, prior AI evaluations have focused on final diagnoses without addressing the multifaceted reasoning and presentation skills required of expert discussants. METHODS: Using 7102 CPCs (1923-2025) and 1021 Image Challenges (2006-2025), we conducted extensive physician annotation and automated processing to create CPC-Bench, a physician-validated benchmark spanning 10 text-based and multimodal tasks, against which we evaluated leading large language models (LLMs). Then, we developed "Dr. CaBot," an AI discussant designed to produce written and slide-based video presentations using only the case presentation, modeling the role of the human expert in these cases. RESULTS: When challenged with 377 contemporary CPCs, o3 (OpenAI) ranked the final diagnosis first in 60% of cases and within the top ten in 84% of cases, outperforming a 20-physician baseline; next-test selection accuracy reached 98%. Event-level physician annotations quantified AI diagnostic accuracy per unit of information. Performance was lower on literature search and image tasks; o3 and Gemini 2.5 Pro (Google) achieved 67% accuracy on image challenges. In blinded comparisons of CaBot vs. human expert-generated text, physicians misclassified the source of the differential in 46 of 62 (74%) of trials, and scored CaBot more favorably across quality dimensions. To promote research, we are releasing CaBot and CPC-Bench. CONCLUSIONS: LLMs exceed physician performance on complex text-based differential diagnosis and convincingly emulate expert medical presentations, but image interpretation and literature retrieval remain weaker. CPC-Bench and CaBot may enable transparent and continued tracking of progress in medical AI.
- Abstract(参考訳): BACKGROUND: New England Journal of Medicine Clinicalopathological Conferences (CPCs)は1世紀以上にわたって、専門家の医師や、最近では人工知能(AI)の推論をテストしてきました。
しかし、従来のAI評価では、専門家が必要とする多面的推論とプレゼンテーションスキルに対処することなく、最終診断に重点を置いている。
方法: 7102 CPC (1923-2025) と 1021 Image Challenges (2006-2025) を用いて, CPC-Bench を作成した。
そこで我々は,ケースプレゼンテーションのみを用いて,筆記およびスライドに基づくビデオプレゼンテーションを作成するように設計されたAI議論者である"Dr. CaBot"を開発し,これらの事例における人間専門家の役割をモデル化した。
結果: 同時代のCPC377例に挑戦すると, O3 (OpenAI) が6割, 上位10例中84%で最終診断値にランク付けし, 20-体性ベースラインを上回り, 次の選択精度は98%に達した。
イベントレベルの医師アノテーションは、情報単位当たりのAI診断精度を定量化した。
o3とGemini 2.5 Pro(Google)は、画像の課題に対して67%の精度を達成した。
CaBotと人間の専門家によるテキストの盲点比較では、医師は62件中46件(74%)で差源を誤って分類し、品質の面でCaBotを好適に評価した。
研究を促進するため、CaBotとCPC-Benchをリリースします。
結論: 複雑なテキストに基づく鑑別診断において, LLMは医師の成績を上回り, 専門家による医療プレゼンテーションを説得的にエミュレートするが, 画像解釈と文献検索は依然として弱いままである。
CPC-BenchとCaBotは、医療AIの透明で継続的な進歩の追跡を可能にする。
関連論文リスト
- Toward the Autonomous AI Doctor: Quantitative Benchmarking of an Autonomous Agentic AI Versus Board-Certified Clinicians in a Real World Setting [0.0]
2030年までには、世界中で1100万人の医療従事者が不足していると予測されている。
エンド・ツー・エンドの大規模言語モデル(LLM)ベースのAIシステムは、実際の臨床実践において厳格に評価されていない。
論文 参考訳(メタデータ) (2025-06-27T19:04:44Z) - Sequential Diagnosis with Language Models [21.22416732642907]
本稿では,304症例を段階的に診断するシークエンシャル診断ベンチマークを紹介する。
成績は、診断精度だけでなく、医師の診察や検査の費用によって評価される。
また,医師のパネルを模擬したモデル診断オーケストレータであるMAI診断オーケストレータ(MAI-DxO)についても紹介する。
論文 参考訳(メタデータ) (2025-06-27T17:27:26Z) - An Agentic System for Rare Disease Diagnosis with Traceable Reasoning [69.46279475491164]
大型言語モデル(LLM)を用いた最初のまれな疾患診断エージェントシステムであるDeepRareを紹介する。
DeepRareは、まれな疾患の診断仮説を分類し、それぞれに透明な推論の連鎖が伴う。
このシステムは2,919の疾患に対して異常な診断性能を示し、1013の疾患に対して100%の精度を達成している。
論文 参考訳(メタデータ) (2025-06-25T13:42:26Z) - A Scalable Approach to Benchmarking the In-Conversation Differential Diagnostic Accuracy of a Health AI [0.0]
本研究では、健康AIシステムを評価するためのスケーラブルなベンチマーク手法を提案する。
提案手法では,14の専門分野に400の検証済み臨床ヴィグネットを用いて,現実的な臨床行為をシミュレートするためにAIを利用した患者アクターを用いた。
8月は81.8%(327/400件)の診断精度、85.0%(340/400件)のトップ2の診断精度を達成し、従来の症状チェッカーを上回った。
論文 参考訳(メタデータ) (2024-12-17T05:02:33Z) - Towards Conversational Diagnostic AI [32.84876349808714]
本稿では,診断対話に最適化されたLarge Language Model (LLM)ベースのAIシステムであるAMIE(Articulate Medical Intelligence Explorer)を紹介する。
AMIEは、さまざまな疾患条件にまたがって学習をスケールするための自動フィードバック機構を備えた、セルフプレイベースのシミュレート環境を使用する。
AMIEの診断精度は, 専門医によると32例中28例, 患者アクターでは26例中24例で高い成績を示した。
論文 参考訳(メタデータ) (2024-01-11T04:25:06Z) - BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。
本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文 参考訳(メタデータ) (2023-05-26T17:14:43Z) - Towards the Use of Saliency Maps for Explaining Low-Quality Electrocardiograms to End Users [51.644376281196394]
診断に医用画像を使用する場合,画像が高品質であることが重要である。
遠隔医療において一般的な問題は、患者が診療所を退院した後にのみ、品質問題が警告されることである。
本稿では,低品質な医用画像をリアルタイムにフラグ付け,説明するためのAIシステムの開発について報告する。
論文 参考訳(メタデータ) (2022-07-06T14:53:26Z) - Review of Artificial Intelligence Techniques in Imaging Data
Acquisition, Segmentation and Diagnosis for COVID-19 [71.41929762209328]
新型コロナウイルス感染症(COVID-19)のパンデミックは世界中に広がっている。
X線やCT(Computerd Tomography)などの医用画像は、世界的な新型コロナウイルス対策に欠かせない役割を担っている。
最近登場した人工知能(AI)技術は、画像ツールの力を強化し、医療専門家を支援する。
論文 参考訳(メタデータ) (2020-04-06T15:21:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。