論文の概要: Automating Expert-Level Medical Reasoning Evaluation of Large Language Models
- arxiv url: http://arxiv.org/abs/2507.07988v1
- Date: Thu, 10 Jul 2025 17:58:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.533756
- Title: Automating Expert-Level Medical Reasoning Evaluation of Large Language Models
- Title(参考訳): 大規模言語モデルのエキスパートレベル医療推論評価の自動化
- Authors: Shuang Zhou, Wenya Xie, Jiaxi Li, Zaifu Zhan, Meijia Song, Han Yang, Cheyenna Espinoza, Lindsay Welton, Xinnie Mai, Yanwei Jin, Zidu Xu, Yuen-Hei Chung, Yiyun Xing, Meng-Han Tsai, Emma Schaffer, Yucheng Shi, Ninghao Liu, Zirui Liu, Rui Zhang,
- Abstract要約: 我々はMedThink-Benchを紹介した。MedThink-Benchは、大規模言語モデルの医学的推論の厳密で説明可能な、スケーラブルな評価のためのベンチマークである。
また, LLM-as-a-Judge 機構と精細な有理性を利用した新しい評価フレームワーク LLM-w-Ref を提案する。
全体として、MedThink-Bench は LLM の医学的推論を評価し、安全で責任ある臨床実践の展開を進めるための基礎的なツールを提供している。
- 参考スコア(独自算出の注目度): 26.702477426812333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) become increasingly integrated into clinical decision-making, ensuring transparent and trustworthy reasoning is essential. However, existing evaluation strategies of LLMs' medical reasoning capability either suffer from unsatisfactory assessment or poor scalability, and a rigorous benchmark remains lacking. To address this, we introduce MedThink-Bench, a benchmark designed for rigorous, explainable, and scalable assessment of LLMs' medical reasoning. MedThink-Bench comprises 500 challenging questions across ten medical domains, each annotated with expert-crafted step-by-step rationales. Building on this, we propose LLM-w-Ref, a novel evaluation framework that leverages fine-grained rationales and LLM-as-a-Judge mechanisms to assess intermediate reasoning with expert-level fidelity while maintaining scalability. Experiments show that LLM-w-Ref exhibits a strong positive correlation with expert judgments. Benchmarking twelve state-of-the-art LLMs, we find that smaller models (e.g., MedGemma-27B) can surpass larger proprietary counterparts (e.g., OpenAI-o3). Overall, MedThink-Bench offers a foundational tool for evaluating LLMs' medical reasoning, advancing their safe and responsible deployment in clinical practice.
- Abstract(参考訳): 大規模言語モデル(LLM)が臨床意思決定にますます統合されるにつれて、透明で信頼性の高い推論が不可欠である。
しかし, LLMの医学的推論能力の評価戦略は, 不満足な評価やスケーラビリティの低下に悩まされ, 厳密なベンチマークが欠落している。
そこで我々は,LSMの医学的推論の厳密で説明可能な,スケーラブルな評価のためのベンチマークであるMedThink-Benchを紹介する。
MedThink-Benchは10の医療領域で500の挑戦的な質問で構成されている。
そこで本研究では, LLM-as-a-Judge機構を応用して, 拡張性を維持しつつ, 専門家レベルの忠実度による中間的推論を評価できる新しい評価フレームワーク LLM-w-Ref を提案する。
LLM-w-Refは専門家の判断と強い正の相関を示した。
12の最先端LCMをベンチマークすると、より小さなモデル(例: MedGemma-27B)がより大きなプロプライエタリなモデル(例: OpenAI-o3)を上回ります。
全体として、MedThink-Bench は LLM の医学的推論を評価し、安全で責任ある臨床実践の展開を進めるための基礎的なツールを提供している。
関連論文リスト
- Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。
現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。
我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文 参考訳(メタデータ) (2025-04-21T16:51:11Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - MedHallBench: A New Benchmark for Assessing Hallucination in Medical Large Language Models [0.0]
医療大言語モデル(MLLM)は医療応用の可能性を示している。
幻覚に対する寛容性は、患者医療に重大なリスクをもたらす。
本稿では,MLLMにおける幻覚の評価と緩和のためのベンチマークフレームワークであるMedHallBenchを紹介する。
論文 参考訳(メタデータ) (2024-12-25T16:51:29Z) - CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。
このベンチマークの信頼性はいくつかの点で確認されている。
論文 参考訳(メタデータ) (2024-10-04T15:15:36Z) - A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models [57.88111980149541]
Asclepiusは、Med-MLLMの異なる医学的特長と診断能力で評価する、新しいMed-MLLMベンチマークである。
3つの基本原則に基づいて、アスクレピウスは15の医療専門分野を包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、3人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。