論文の概要: Generalist Large Language Models Outperform Clinical Tools on Medical Benchmarks
- arxiv url: http://arxiv.org/abs/2512.01191v1
- Date: Mon, 01 Dec 2025 02:14:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.636312
- Title: Generalist Large Language Models Outperform Clinical Tools on Medical Benchmarks
- Title(参考訳): 一般言語モデルを用いた医療ベンチマークによる臨床ツールの性能向上
- Authors: Krithik Vishwanath, Mrigayu Ghosh, Anton Alyakin, Daniel Alexander Alber, Yindalon Aphinyanaphongs, Eric Karl Oermann,
- Abstract要約: ジェネラリストモデルは一貫して臨床ツールより優れていた。
OpenEvidenceとUpToDate Expert AIは、完全性、コミュニケーション品質、コンテキスト認識、システムベースの安全性推論の欠陥を実証した。
- 参考スコア(独自算出の注目度): 1.2773749417703923
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Specialized clinical AI assistants are rapidly entering medical practice, often framed as safer or more reliable than general-purpose large language models (LLMs). Yet, unlike frontier models, these clinical tools are rarely subjected to independent, quantitative evaluation, creating a critical evidence gap despite their growing influence on diagnosis, triage, and guideline interpretation. We assessed two widely deployed clinical AI systems (OpenEvidence and UpToDate Expert AI) against three state-of-the-art generalist LLMs (GPT-5, Gemini 3 Pro, and Claude Sonnet 4.5) using a 1,000-item mini-benchmark combining MedQA (medical knowledge) and HealthBench (clinician-alignment) tasks. Generalist models consistently outperformed clinical tools, with GPT-5 achieving the highest scores, while OpenEvidence and UpToDate demonstrated deficits in completeness, communication quality, context awareness, and systems-based safety reasoning. These findings reveal that tools marketed for clinical decision support may often lag behind frontier LLMs, underscoring the urgent need for transparent, independent evaluation before deployment in patient-facing workflows.
- Abstract(参考訳): 専門のAIアシスタントは、多くの場合、汎用の大規模言語モデル(LLM)よりも安全または信頼性の高いものとしてフレーム化されている。
しかし、フロンティアモデルとは異なり、これらの臨床ツールは独立して定量的評価を受けることはめったになく、診断、トリアージ、ガイドライン解釈に影響を及ぼすにもかかわらず、重要な証拠ギャップを生じさせる。
我々は、MedQA(医療知識)とHealthBench(クリニック適応)を併用した1000石のミニベンチマークを用いて、最先端のジェネラリストLLM(GPT-5, Gemini 3 Pro, Claude Sonnet 4.5)に対して、広く展開されている2つの臨床AIシステム(OpenEvidenceとUpToDate Expert AI)を評価した。
GPT-5は最高スコアを達成し、OpenEvidenceとUpToDateは完全性、コミュニケーション品質、文脈認識、システムベースの安全推論の欠陥を実証した。
これらの結果から, 臨床診断支援のためのツールがフロンティアLSMより遅れることがしばしばあり, 患者対応ワークフローへの展開に先立って, 透明性, 独立した評価の必要性が浮き彫りになる可能性が示唆された。
関連論文リスト
- Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - OpenAIs HealthBench in Action: Evaluating an LLM-Based Medical Assistant on Realistic Clinical Queries [2.2807344448218507]
われわれはHealthBenchを用いてRAGをベースとした臨床サポートアシスタントDR.INFOを評価した。
1000の挑戦的な例のハードサブセットでは、DR.INFOはHealthBenchスコア0.51を達成している。
同様のエージェントRAGアシスタントに対する100サンプルの別評価では、ヘルスベンチスコア0.54のパフォーマンスリードを維持している。
論文 参考訳(メタデータ) (2025-08-29T09:51:41Z) - Med-RewardBench: Benchmarking Reward Models and Judges for Medical Multimodal Large Language Models [57.73472878679636]
Med-RewardBenchは、医療報酬モデルと審査員を評価するために特別に設計された最初のベンチマークである。
Med-RewardBenchは、13の臓器系と8の臨床部門にまたがるマルチモーダルデータセットを特徴としている。
厳格な3段階のプロセスは、6つの臨床的に重要な次元にわたる高品質な評価データを保証する。
論文 参考訳(メタデータ) (2025-08-29T08:58:39Z) - CLARIFY: A Specialist-Generalist Framework for Accurate and Lightweight Dermatological Visual Question Answering [0.5310914438304387]
皮膚科視覚質問応答(VQA)を専門とするCLARIFYについて紹介する。
CLARIFYは、(i)高速かつ高精度な診断予測を提供する軽量な領域学習画像分類器(スペシャリスト)と(ii)ユーザクエリに対する自然言語説明を生成する強力な圧縮された会話型VLM(ジェネラリスト)の2つのコンポーネントを組み合わせる。
その結果, CLARIFYは最強基線に対する診断精度が18%向上することが確認された。
論文 参考訳(メタデータ) (2025-08-25T19:22:16Z) - Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation [58.25892575437433]
医学における大規模言語モデル (LLMs) の評価は, 医療応用には精度が高く, 誤差の少ないため重要である。
LLMEval-Medは、5つの中核医療領域をカバーする新しいベンチマークであり、現実の電子健康記録から得られた2,996の質問と専門家が設計した臨床シナリオを含む。
論文 参考訳(メタデータ) (2025-06-04T15:43:14Z) - MedBrowseComp: Benchmarking Medical Deep Research and Computer Use [10.565661515629412]
MedBrowseCompは、エージェントが医療事実を検索し、合成する能力を体系的にテストするベンチマークである。
臨床シナリオを反映した1,000以上の人為的な質問が含まれている。
MedBrowseCompをフロンティアエージェントシステムに適用すると、パフォーマンスの欠点が10%も低くなる。
論文 参考訳(メタデータ) (2025-05-20T22:42:33Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Natural Language Programming in Medicine: Administering Evidence Based Clinical Workflows with Autonomous Agents Powered by Generative Large Language Models [29.05425041393475]
ジェネレーティブ・大型言語モデル(LLM)は医療において大きな可能性を秘めている。
本研究は, シミュレーション3次医療センターにおいて, 自律型エージェントとして機能するLSMの可能性を評価した。
論文 参考訳(メタデータ) (2024-01-05T15:09:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。