論文の概要: Can LLMs Score Medical Diagnoses and Clinical Reasoning as well as Expert Panels?
- arxiv url: http://arxiv.org/abs/2604.14892v2
- Date: Fri, 17 Apr 2026 09:12:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 13:38:49.394301
- Title: Can LLMs Score Medical Diagnoses and Clinical Reasoning as well as Expert Panels?
- Title(参考訳): LLMは専門家パネルと同様に医療診断と臨床推論をスコアできるか?
- Authors: Amy Rouillard, Sitwala Mundia, Linda Camara, Michael Cameron Gramanie, Ziyaad Dangor, Ismail Kalla, Shabir A. Madhi, Kajal Morar, Marlvin T. Ncube, Haroon Saloojee, Bruce A. Bassett,
- Abstract要約: 専門家のクリニックパネルを使用して医療AIシステムを評価するのは費用がかかり、遅いため、代案として大規模言語モデル(LLM)を使用する動機がある。
そこで我々は,300の現実世界中所得国(MIC)で3333の診断結果を得た3つのフロンティアAIモデルからなるLLM審査員を評価した。
LLM陪審とAIモデル診断を組み合わせることで、高いエラーリスクで病棟診断を識別できることがわかった。
- 参考スコア(独自算出の注目度): 0.7857924499207116
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Evaluating medical AI systems using expert clinician panels is costly and slow, motivating the use of large language models (LLMs) as alternative adjudicators. Here, we evaluate an LLM jury composed of three frontier AI models scoring 3333 diagnoses on 300 real-world middle-income country (MIC) hospital cases. Model performance was benchmarked against expert clinician panel and independent human re-scoring panel evaluations. Both LLM and clinician-generated diagnoses are scored across four dimensions: diagnosis, differential diagnosis, clinical reasoning and negative treatment risk. For each of these, we assess scoring difference, inter-rater agreement, scoring stability, severe safety errors and the effect of post-hoc calibration. We find that: (i) the uncalibrated LLM jury scores are systematically lower than clinician panels scores; (ii) the LLM Jury preserves ordinal agreement and exhibits better concordance with the primary expert panels than the human expert re-score panels do; (iii) the probability of severe errors is lower in \lj models compared to the human expert re-score panels; (iv) the LLM Jury shows excellent agreement with primary expert panels' rankings. We find that the LLM jury combined with AI model diagnoses can be used to identify ward diagnoses at high risk of error, enabling targeted expert review and improved panel efficiency; (v) LLM jury models show no self-preference bias. They did not score diagnoses generated by their own underlying model or models from the same vendor more (or less) favourably than those generated by other models. Finally, we demonstrate that LLM jury calibration using isotonic regression improves alignment with human expert panel evaluations. Together, these results provide compelling evidence that a calibrated, multi-model LLM jury can serve as a trustworthy and reliable proxy for expert clinician evaluation in medical AI benchmarking.
- Abstract(参考訳): 専門家のクリニックパネルを用いた医療AIシステムの評価は費用がかかり遅く、代案として大規模言語モデル(LLM)の使用が動機となっている。
そこで我々は,300の現実世界中所得国(MIC)で3333の診断結果を得た3つのフロンティアAIモデルからなるLLM審査員を評価した。
モデル性能を専門医パネルと独立人再検査パネルの評価と比較した。
LLMと臨床医が生成する診断は、診断、鑑別診断、臨床推論、負の治療リスクの4つに分けて評価される。
これらの結果から, 評価差, レータ間合意, スコアリング安定性, 重度安全性エラー, ポストホック校正の影響について検討した。
以下に示す。
i) LLM審査員のスコアが臨床検査士のスコアより体系的に低いこと。
2 LLM陪審員は、条例協定を保ち、人間の専門家再スコアパネルよりも、主要な専門家パネルとの整合性が良好である。
三 人間の専門家の再スコアパネルと比較して、dljモデルにおいて重大エラーの確率が低いこと。
(4) LLM Juryは、主要な専門家パネルのランキングと良好に一致している。
LLM陪審とAIモデル診断を組み合わせることで、エラーのリスクの高い病棟診断を識別し、対象とする専門家のレビューを可能にし、パネル効率を向上させることができる。
(v) LLM陪審員モデルは自己選好バイアスを示さない。
彼らは、自身の基盤となるモデルや、同じベンダーから生成されたモデルによって生成された診断を、他のモデルが生成したものよりも好ましく(あるいはあまり)評価しなかった。
最後に, 等調回帰を用いたLCM陪審の校正により, 人間の専門家パネル評価との整合性が向上することが実証された。
これらの結果は、校正されたマルチモデルLCM陪審員が、医療AIベンチマークにおける専門家臨床評価の信頼性と信頼性のあるプロキシとして機能する、という説得力のある証拠を提供する。
関連論文リスト
- One Panel Does Not Fit All: Case-Adaptive Multi-Agent Deliberation for Clinical Prediction [10.760929240872564]
本稿では, CAMP (Case-Adaptive Multi-agent Panel) を提案する。
ハイブリッドルータは、強いコンセンサス、出席医の判断へのフォールバック、または投票数よりも議論品質を重くする証拠に基づく仲裁を通じて、それぞれの診断を指示する。
CAMPは、多くの競合するマルチエージェントメソッドよりも少ないトークンを消費しながら、強力なベースラインを一貫して上回り、投票記録と、透明な決定監査を提供する仲裁トレースを提供する。
論文 参考訳(メタデータ) (2026-03-31T18:00:34Z) - Generalist Large Language Models Outperform Clinical Tools on Medical Benchmarks [1.2773749417703923]
ジェネラリストモデルは一貫して臨床ツールより優れていた。
OpenEvidenceとUpToDate Expert AIは、完全性、コミュニケーション品質、コンテキスト認識、システムベースの安全性推論の欠陥を実証した。
論文 参考訳(メタデータ) (2025-12-01T02:14:43Z) - Med-RewardBench: Benchmarking Reward Models and Judges for Medical Multimodal Large Language Models [57.73472878679636]
Med-RewardBenchは、医療報酬モデルと審査員を評価するために特別に設計された最初のベンチマークである。
Med-RewardBenchは、13の臓器系と8の臨床部門にまたがるマルチモーダルデータセットを特徴としている。
厳格な3段階のプロセスは、6つの臨床的に重要な次元にわたる高品質な評価データを保証する。
論文 参考訳(メタデータ) (2025-08-29T08:58:39Z) - Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation [58.25892575437433]
医学における大規模言語モデル (LLMs) の評価は, 医療応用には精度が高く, 誤差の少ないため重要である。
LLMEval-Medは、5つの中核医療領域をカバーする新しいベンチマークであり、現実の電子健康記録から得られた2,996の質問と専門家が設計した臨床シナリオを含む。
論文 参考訳(メタデータ) (2025-06-04T15:43:14Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Language Models And A Second Opinion Use Case: The Pocket Professional [0.0]
本研究は、専門的な意思決定において、正式な第二意見ツールとして、LLM(Large Language Models)の役割を検証する。
この研究は、20ヶ月にわたるMedscapeからの183の挑戦的な医療事例を分析し、クラウドソースされた医師の反応に対して複数のLSMのパフォーマンスをテストした。
論文 参考訳(メタデータ) (2024-10-27T23:48:47Z) - RuleAlign: Making Large Language Models Better Physicians with Diagnostic Rule Alignment [54.91736546490813]
本稿では,大規模言語モデルと特定の診断規則との整合性を考慮したルールアラインフレームワークを提案する。
患者と医師間の規則に基づくコミュニケーションを含む医療対話データセットを開発した。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-08-22T17:44:40Z) - Matching Patients to Clinical Trials with Large Language Models [29.265158319106604]
本稿では,大規模言語モデルを用いたゼロショット患者間マッチングのためのエンドツーエンドフレームワークTrialGPTを紹介する。
TrialGPTは3つのモジュールから構成されており、まず大規模フィルタリングを行い、候補トライアル(TrialGPT-Retrieval)を検索し、次に基準レベルの患者資格(TrialGPT-Matching)を予測し、最終的にトライアルレベルのスコア(TrialGPT-Ranking)を生成する。
論文 参考訳(メタデータ) (2023-07-27T17:56:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。