論文の概要: Medical Reasoning with Large Language Models: A Survey and MR-Bench
- arxiv url: http://arxiv.org/abs/2604.08559v1
- Date: Tue, 17 Mar 2026 09:03:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.414336
- Title: Medical Reasoning with Large Language Models: A Survey and MR-Bench
- Title(参考訳): 大規模言語モデルを用いた医学的推論 : MR-Benchによる調査
- Authors: Xiaohan Ren, Chenxiao Fan, Wenyin Ma, Hongliang He, Chongming Gao, Xiaoyan Zhao, Fuli Feng,
- Abstract要約: 大規模言語モデル(LLM)は、医学試験スタイルのタスクにおいて高いパフォーマンスを達成している。
臨床的意思決定は本質的に安全に重要であり、文脈に依存し、進化する証拠の下で行われる。
- 参考スコア(独自算出の注目度): 41.12833582419578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have achieved strong performance on medical exam-style tasks, motivating growing interest in their deployment in real-world clinical settings. However, clinical decision-making is inherently safety-critical, context-dependent, and conducted under evolving evidence. In such situations, reliable LLM performance depends not on factual recall alone, but on robust medical reasoning. In this work, we present a comprehensive review of medical reasoning with LLMs. Grounded in cognitive theories of clinical reasoning, we conceptualize medical reasoning as an iterative process of abduction, deduction, and induction, and organize existing methods into seven major technical routes spanning training-based and training-free approaches. We further conduct a unified cross-benchmark evaluation of representative medical reasoning models under a consistent experimental setting, enabling a more systematic and comparable assessment of the empirical impact of existing methods. To better assess clinically grounded reasoning, we introduce MR-Bench, a benchmark derived from real-world hospital data. Evaluations on MR-Bench expose a pronounced gap between exam-level performance and accuracy on authentic clinical decision tasks. Overall, this survey provides a unified view of existing medical reasoning methods, benchmarks, and evaluation practices, and highlights key gaps between current model performance and the requirements of real-world clinical reasoning.
- Abstract(参考訳): 大規模言語モデル (LLM) は, 実際の臨床環境への展開に対する関心が高まっている。
しかし、臨床的意思決定は本質的に安全に重要であり、文脈に依存し、進化する証拠の下で行われる。
このような状況下では、信頼性の高いLLMパフォーマンスは、事実のリコールだけでなく、堅牢な医学的推論にも依存する。
本稿では LLM を用いた医学的推論について概観する。
臨床推論の認知理論を基礎として, 退行, 退行, 誘導の反復的プロセスとして医療推論を概念化し, 既存の手法を, トレーニングベースおよびトレーニングフリーアプローチにまたがる7つの主要な技術ルートに整理した。
さらに、一貫した実験環境下で、代表的医学推論モデルの総合的なベンチマーク評価を行い、既存の方法による経験的影響のより体系的で同等な評価を可能にする。
臨床的根拠に基づく推論をよりよく評価するために,実際の病院データから得られたベンチマークであるMR-Benchを紹介した。
MR-Benchの評価は、検査レベルの成績と正確な臨床決定タスクの精度の間に明らかなギャップを露呈する。
全体として、この調査は既存の医学的推論手法、ベンチマーク、評価プラクティスの統一的なビューを提供し、現在のモデルの性能と実際の臨床的推論の要件との間に重要なギャップを浮き彫りにしている。
関連論文リスト
- AgentsEval: Clinically Faithful Evaluation of Medical Imaging Reports via Multi-Agent Reasoning [73.50200033931148]
本稿では,放射線科医の協調診断ワークフローをエミュレートしたマルチエージェントストリーム推論フレームワークであるAgensEvalを紹介する。
評価プロセスを基準定義、エビデンス抽出、アライメント、一貫性スコアなどの解釈可能なステップに分割することで、AgensEvalは明確な推論トレースと構造化された臨床フィードバックを提供する。
実験結果から,AgensEvalは,言い換え,意味的,スタイリスティックな摂動の下でも頑健な臨床的整合性,意味的忠実性,解釈可能な評価を提供することが示された。
論文 参考訳(メタデータ) (2026-01-23T11:59:13Z) - MedCEG: Reinforcing Verifiable Medical Reasoning with Critical Evidence Graph [17.320322032287894]
MedCEGは医療言語モデルに臨床的に有効な推論経路を付加するフレームワークである。
推論プロセスの指針として,臨床推論手順の見直しを紹介する。
実験結果から,MedCEGは臨床的に妥当な推論鎖を産生しながら,既存の方法を上回る性能を示した。
論文 参考訳(メタデータ) (2025-12-15T16:38:46Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - Inflated Excellence or True Performance? Rethinking Medical Diagnostic Benchmarks with Dynamic Evaluation [23.85199484712499]
臨床診断のための動的ベンチマークであるDyReMeを提案する。
静的な試験スタイルの質問とは異なり、DyReMeは、鑑別診断や一般的な誤診因子のような、新しくて相談のようなケースを発生させる。
実験により, この動的アプローチはより困難で現実的な評価をもたらし, 最先端のLCMと実際の臨床実践との間に有意な相違があることが判明した。
論文 参考訳(メタデータ) (2025-10-10T11:19:04Z) - Medical Reasoning in the Era of LLMs: A Systematic Review of Enhancement Techniques and Applications [59.721265428780946]
医学における大きな言語モデル(LLM)は印象的な能力を実現しているが、体系的で透明で検証可能な推論を行う能力に重大なギャップが残っている。
本稿は、この新興分野に関する最初の体系的なレビューを提供する。
本稿では,学習時間戦略とテスト時間メカニズムに分類した推論強化手法の分類法を提案する。
論文 参考訳(メタデータ) (2025-08-01T14:41:31Z) - Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。
現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。
我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文 参考訳(メタデータ) (2025-04-21T16:51:11Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - MEDIC: Towards a Comprehensive Framework for Evaluating LLMs in Clinical Applications [2.838746648891565]
臨床能力の5つの重要な側面にまたがって,大規模言語モデル(LLM)を評価するフレームワークであるMEDICを紹介する。
医療質問応答,安全性,要約,メモ生成,その他のタスクにおいて,MDDICを用いてLCMを評価する。
その結果, モデルサイズ, ベースライン, 医療用微調整モデル間の性能差が示され, 特定のモデル強度を必要とするアプリケーションに対して, モデル選択に影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2024-09-11T14:44:51Z) - Emulating Human Cognitive Processes for Expert-Level Medical
Question-Answering with Large Language Models [0.23463422965432823]
BooksMedはLarge Language Model(LLM)に基づいた新しいフレームワークである
人間の認知プロセスをエミュレートして、エビデンスベースの信頼性の高い応答を提供する。
本稿では、専門家レベルのオープンエンドな質問からなるベンチマークであるExpertMedQAを紹介する。
論文 参考訳(メタデータ) (2023-10-17T13:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。