論文の概要: Inflated Excellence or True Performance? Rethinking Medical Diagnostic Benchmarks with Dynamic Evaluation
- arxiv url: http://arxiv.org/abs/2510.09275v1
- Date: Fri, 10 Oct 2025 11:19:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.796979
- Title: Inflated Excellence or True Performance? Rethinking Medical Diagnostic Benchmarks with Dynamic Evaluation
- Title(参考訳): インフレーションド・エクセレンスと真のパフォーマンス : 診断基準の再検討と動的評価
- Authors: Xiangxu Zhang, Lei Li, Yanyun Zhou, Xiao Zhou, Yingying Zhang, Xian Wu,
- Abstract要約: 臨床診断のための動的ベンチマークであるDyReMeを提案する。
静的な試験スタイルの質問とは異なり、DyReMeは、鑑別診断や一般的な誤診因子のような、新しくて相談のようなケースを発生させる。
実験により, この動的アプローチはより困難で現実的な評価をもたらし, 最先端のLCMと実際の臨床実践との間に有意な相違があることが判明した。
- 参考スコア(独自算出の注目度): 23.85199484712499
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Medical diagnostics is a high-stakes and complex domain that is critical to patient care. However, current evaluations of large language models (LLMs) are fundamentally misaligned with real-world clinical practice. Most of them rely on static benchmarks derived from public medical exam items, which tend to overestimate model performance and ignore the difference between textbook cases and the ambiguous, varying conditions in the real world. Recent efforts toward dynamic evaluation offer a promising alternative, but their improvements are limited to superficial perturbations and a narrow focus on accuracy. To address these gaps, we propose DyReMe, a dynamic benchmark for medical diagnostics that better reflects real clinical practice. Unlike static exam-style questions, DyReMe generates fresh, consultation-like cases that introduce distractors such as differential diagnoses and common misdiagnosis factors. It also varies expression styles to mimic diverse real-world query habits. Beyond accuracy, DyReMe evaluates LLMs on three additional clinically relevant dimensions: veracity, helpfulness, and consistency. Our experiments demonstrate that this dynamic approach yields more challenging and realistic assessments, revealing significant misalignments between the performance of state-of-the-art LLMs and real clinical practice. These findings highlight the urgent need for evaluation frameworks that better reflect the demands of trustworthy medical diagnostics.
- Abstract(参考訳): 医療診断は、患者医療にとって重要な、高用量で複雑な領域である。
しかし, 大規模言語モデル (LLM) の現在の評価は, 現実的な臨床実践と根本的には一致していない。
それらの多くは、公的医療検査項目から得られた静的なベンチマークに依存しており、これは、モデルの性能を過大評価し、教科書ケースと現実世界の曖昧で多様な条件の違いを無視する傾向がある。
最近の動的評価への取り組みは、有望な代替手段を提供するが、その改善は表面摂動に限られており、精度に焦点を絞っている。
このようなギャップに対処するため,実際の臨床実践を反映したダイナミックな診断ベンチマークDyReMeを提案する。
静的な試験スタイルの質問とは異なり、DyReMeは、鑑別診断や一般的な誤診因子のような、新しくて相談のようなケースを発生させる。
また、様々な現実世界のクエリの習慣を模倣するために、表現スタイルも様々である。
DyReMeは、正確性、有用性、一貫性の3つの追加的な臨床的側面でLCMを評価する。
実験により, この動的アプローチはより困難で現実的な評価をもたらし, 最先端のLCMと実際の臨床実践との間に有意な相違があることが判明した。
これらの知見は、信頼できる診断の要求を反映した評価フレームワークの緊急の必要性を浮き彫りにしている。
関連論文リスト
- The Dialogue That Heals: A Comprehensive Evaluation of Doctor Agents' Inquiry Capability [15.649293541650811]
我々は,医療マルチターン質問の自動的・包括的評価のための,これまでで最大のベンチマークであるMAQuE(Medical Agent Questioning Evaluation)を提案する。
3000の患者エージェントがリアルにシミュレートされ、多様な言語パターン、認知的制限、感情的反応、受動的開示の傾向を示す。
また,タスク成功,質問能力,対話能力,質問効率,患者体験を網羅する多面的評価フレームワークも導入した。
論文 参考訳(メタデータ) (2025-09-29T15:52:36Z) - Beyond Classification Accuracy: Neural-MedBench and the Need for Deeper Reasoning Benchmarks [21.203358914772465]
近年の視覚言語モデル (VLM) の進歩は, 標準医学ベンチマークにおいて顕著な性能を発揮しているが, その真の臨床推論能力は未だ不明である。
我々はニューラルメドベンチ(Neural-MedBench)について紹介する。これは、神経学におけるマルチモーダルな臨床推論の限界を調査するためのコンパクトで推論集約的なベンチマークである。
論文 参考訳(メタデータ) (2025-09-26T12:20:01Z) - Med-RewardBench: Benchmarking Reward Models and Judges for Medical Multimodal Large Language Models [57.73472878679636]
Med-RewardBenchは、医療報酬モデルと審査員を評価するために特別に設計された最初のベンチマークである。
Med-RewardBenchは、13の臓器系と8の臨床部門にまたがるマルチモーダルデータセットを特徴としている。
厳格な3段階のプロセスは、6つの臨床的に重要な次元にわたる高品質な評価データを保証する。
論文 参考訳(メタデータ) (2025-08-29T08:58:39Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Superhuman performance of a large language model on the reasoning tasks of a physician [9.16343214099031]
数百人の医師のベースラインに対する難治性臨床症例に対する大規模言語モデル(LLM)の医師評価の結果を報告する。
本研究は, 鑑別診断生成, 診断推論の表示, トリアージ差分診断, 確率的推論, 管理推論の5つの実験を行った。
次に, ボストンにある第3次学術医療センターの救急室で無作為に選択された患者を対象に, 人間の専門家とAIの第2の意見を比較検討した。
論文 参考訳(メタデータ) (2024-12-14T14:46:18Z) - MEDIC: Towards a Comprehensive Framework for Evaluating LLMs in Clinical Applications [2.838746648891565]
臨床能力の5つの重要な側面にまたがって,大規模言語モデル(LLM)を評価するフレームワークであるMEDICを紹介する。
医療質問応答,安全性,要約,メモ生成,その他のタスクにおいて,MDDICを用いてLCMを評価する。
その結果, モデルサイズ, ベースライン, 医療用微調整モデル間の性能差が示され, 特定のモデル強度を必要とするアプリケーションに対して, モデル選択に影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2024-09-11T14:44:51Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic
Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。
近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。
本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文 参考訳(メタデータ) (2023-07-19T12:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。