論文の概要: From Scores to Steps: Diagnosing and Improving LLM Performance in Evidence-Based Medical Calculations
- arxiv url: http://arxiv.org/abs/2509.16584v1
- Date: Sat, 20 Sep 2025 09:10:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.872089
- Title: From Scores to Steps: Diagnosing and Improving LLM Performance in Evidence-Based Medical Calculations
- Title(参考訳): スコアからステップへ:エビデンスに基づく医療計算におけるLCMの診断と改善
- Authors: Benlu Wang, Iris Xia, Yifan Zhang, Junda Wang, Feiyun Ouyang, Shuo Han, Arman Cohan, Hong Yu, Zonghai Yao,
- Abstract要約: 大規模言語モデル(LLM)は医療ベンチマークで有望な性能を示した。
しかし、医学的な計算を行う能力は未熟であり、評価も不十分である。
本研究は,臨床信頼性を重視した医療計算評価を再考する。
- 参考スコア(独自算出の注目度): 45.414878840652115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated promising performance on medical benchmarks; however, their ability to perform medical calculations, a crucial aspect of clinical decision-making, remains underexplored and poorly evaluated. Existing benchmarks often assess only the final answer with a wide numerical tolerance, overlooking systematic reasoning failures and potentially causing serious clinical misjudgments. In this work, we revisit medical calculation evaluation with a stronger focus on clinical trustworthiness. First, we clean and restructure the MedCalc-Bench dataset and propose a new step-by-step evaluation pipeline that independently assesses formula selection, entity extraction, and arithmetic computation. Under this granular framework, the accuracy of GPT-4o drops from 62.7% to 43.6%, revealing errors masked by prior evaluations. Second, we introduce an automatic error analysis framework that generates structured attribution for each failure mode. Human evaluation confirms its alignment with expert judgment, enabling scalable and explainable diagnostics. Finally, we propose a modular agentic pipeline, MedRaC, that combines retrieval-augmented generation and Python-based code execution. Without any fine-tuning, MedRaC improves the accuracy of different LLMs from 16.35% up to 53.19%. Our work highlights the limitations of current benchmark practices and proposes a more clinically faithful methodology. By enabling transparent and transferable reasoning evaluation, we move closer to making LLM-based systems trustworthy for real-world medical applications.
- Abstract(参考訳): 大規模言語モデル (LLM) は医療ベンチマークにおいて有望な性能を示したが、臨床決定の重要な側面である医療計算を行う能力は未熟であり、評価が不十分である。
既存のベンチマークでは、体系的な推論の失敗を見落とし、深刻な臨床的ミスを生じさせる可能性のある、幅広い数値的許容度を持つ最終回答のみを評価することがしばしばある。
本研究は,臨床信頼性を重視した医療計算評価を再考する。
まず、MedCalc-Benchデータセットのクリーン化と再構成を行い、式の選択、エンティティ抽出、算術演算を独立に評価する新しいステップバイステップ評価パイプラインを提案する。
この詳細な枠組みの下では、GPT-4oの精度は62.7%から43.6%に低下し、以前の評価で隠されていた誤りが明らかになった。
第2に、障害モード毎に構造化属性を生成する自動エラー解析フレームワークを導入する。
人間の評価は専門家の判断と一致し、スケーラブルで説明可能な診断を可能にする。
最後に,検索拡張生成とPythonベースのコード実行を組み合わせたモジュール型エージェントパイプラインMedRaCを提案する。
微調整なしでは、MedRaCは16.35%から53.19%まで異なるLCMの精度を向上させる。
我々の研究は、現在のベンチマークプラクティスの限界を強調し、より臨床的に忠実な方法論を提案する。
透過的かつ伝達可能な推論評価を可能にすることにより、現実の医療応用にふさわしいLCMベースのシステムに近づいた。
関連論文リスト
- LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation [58.25892575437433]
医学における大規模言語モデル (LLMs) の評価は, 医療応用には精度が高く, 誤差の少ないため重要である。
LLMEval-Medは、5つの中核医療領域をカバーする新しいベンチマークであり、現実の電子健康記録から得られた2,996の質問と専門家が設計した臨床シナリオを含む。
論文 参考訳(メタデータ) (2025-06-04T15:43:14Z) - ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification [57.22053411719822]
ChestX-Reasoner(チェストX-Reasoner)は、臨床報告から直接採掘されるプロセスの監督を活用するために設計された放射線診断MLLMである。
我々の2段階のトレーニングフレームワークは、モデル推論と臨床標準との整合性を高めるために、プロセス報酬によって指導された教師付き微調整と強化学習を組み合わせる。
論文 参考訳(メタデータ) (2025-04-29T16:48:23Z) - Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。
現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。
我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文 参考訳(メタデータ) (2025-04-21T16:51:11Z) - GEMA-Score: Granular Explainable Multi-Agent Scoring Framework for Radiology Report Evaluation [7.838068874909676]
Granular Explainable Multi-Agent Score (GEMA-Score)は、大規模言語モデルに基づくマルチエージェントワークフローを通じて、客観的および主観的評価を行う。
GEMA-Scoreは、公開データセット上での人間の専門家評価と最も高い相関を達成している。
論文 参考訳(メタデータ) (2025-03-07T11:42:22Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。