論文の概要: MedCaseReasoning: Evaluating and learning diagnostic reasoning from clinical case reports
- arxiv url: http://arxiv.org/abs/2505.11733v2
- Date: Tue, 20 May 2025 15:56:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 12:33:37.405481
- Title: MedCaseReasoning: Evaluating and learning diagnostic reasoning from clinical case reports
- Title(参考訳): MedCaseReasoning:臨床報告からの診断的推論と学習
- Authors: Kevin Wu, Eric Wu, Rahul Thapa, Kevin Wei, Angela Zhang, Arvind Suresh, Jacqueline J. Tao, Min Woo Sun, Alejandro Lozano, James Zou,
- Abstract要約: MedCaseReasoningはLarge Language Models(LLM)を評価するための最初のオープンアクセスデータセットである。
データセットには14,489の診断的質問・回答ケースが含まれており、それぞれに詳細な推論文がペアリングされている。
我々は,MedCaseReasoning上での最先端の推論LPMを評価し,診断と推論に重大な欠点を見出した。
- 参考スコア(独自算出の注目度): 49.00805568780791
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Doctors and patients alike increasingly use Large Language Models (LLMs) to diagnose clinical cases. However, unlike domains such as math or coding, where correctness can be objectively defined by the final answer, medical diagnosis requires both the outcome and the reasoning process to be accurate. Currently, widely used medical benchmarks like MedQA and MMLU assess only accuracy in the final answer, overlooking the quality and faithfulness of the clinical reasoning process. To address this limitation, we introduce MedCaseReasoning, the first open-access dataset for evaluating LLMs on their ability to align with clinician-authored diagnostic reasoning. The dataset includes 14,489 diagnostic question-and-answer cases, each paired with detailed reasoning statements derived from open-access medical case reports. We evaluate state-of-the-art reasoning LLMs on MedCaseReasoning and find significant shortcomings in their diagnoses and reasoning: for instance, the top-performing open-source model, DeepSeek-R1, achieves only 48% 10-shot diagnostic accuracy and mentions only 64% of the clinician reasoning statements (recall). However, we demonstrate that fine-tuning LLMs on the reasoning traces derived from MedCaseReasoning significantly improves diagnostic accuracy and clinical reasoning recall by an average relative gain of 29% and 41%, respectively. The open-source dataset, code, and models are available at https://github.com/kevinwu23/Stanford-MedCaseReasoning.
- Abstract(参考訳): 医師や患者も同様に、臨床症例の診断にLarge Language Models(LLMs)の使用が増えている。
しかし、最終回答によって正当性を客観的に定義できる数学やコーディングのような領域とは異なり、診断には結果と推論プロセスの両方が正確である必要がある。
現在、MedQAやMMLUのような広く使われている医療ベンチマークは、最終回答でのみ正確さを評価しており、臨床推論プロセスの品質と忠実さを見越している。
この制限に対処するために、臨床者が認可した診断推論と整合する能力に基づいて、LSMを評価するための最初のオープンアクセスデータセットであるMedCaseReasoningを紹介した。
データセットには14,489件の診断用質問・回答用ケースが含まれており、それぞれにオープンアクセスの医療報告から得られた詳細な推論文がペアリングされている。
我々は、MedCaseReasoningにおける最先端の推論LPMを評価し、診断と推論に重大な欠点を見出した。例えば、最高のパフォーマンスのオープンソースモデルであるDeepSeek-R1は、診断精度が48%に過ぎず、臨床用推論ステートメントの64%しか言及していない(リコール)。
しかし,MedCaseReasoningから得られた推論トレースの微調整LDMは,平均相対利得率29%,臨床推論リコール率41%で,診断精度と臨床推論リコールを有意に向上させることを示した。
オープンソースデータセット、コード、モデルはhttps://github.com/kevinwu23/Stanford-MedCaseReasoning.comから入手できる。
関連論文リスト
- ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification [57.22053411719822]
ChestX-Reasoner(チェストX-Reasoner)は、臨床報告から直接採掘されるプロセスの監督を活用するために設計された放射線診断MLLMである。
我々の2段階のトレーニングフレームワークは、モデル推論と臨床標準との整合性を高めるために、プロセス報酬によって指導された教師付き微調整と強化学習を組み合わせる。
論文 参考訳(メタデータ) (2025-04-29T16:48:23Z) - MedReason: Eliciting Factual Medical Reasoning Steps in LLMs via Knowledge Graphs [39.65443626577068]
高品質な医療推論データセットであるMedReasonを紹介する。
我々のパイプラインは7つの医学データセットから様々な医学的質問の詳細な推論を生成する。
私たちの最高のパフォーマンスモデルであるMedReason-8Bは、最先端の医療推論モデルであるHuatuo-o1-8Bを、臨床ベンチマークMedBulletsで最大4.2%上回っています。
論文 参考訳(メタデータ) (2025-04-01T17:31:44Z) - CUPCase: Clinically Uncommon Patient Cases and Diagnoses Dataset [0.807662398486908]
汎用GPT-4oは、複数選択タスクとオープンエンドタスクの両方で最高のパフォーマンスを達成する。
汎用GPT-4oは、複数選択タスクとオープンエンドタスクの両方で最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-08T13:21:44Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - DiReCT: Diagnostic Reasoning for Clinical Notes via Large Language Models [32.85606857702375]
本研究では,人間医師と比較して,大規模言語モデル(LLM)の推論能力と解釈可能性を評価することを目的とする。
臨床注記用診断推論データセット(DiReCT)は、511の臨床注記を含む。
論文 参考訳(メタデータ) (2024-08-04T05:15:02Z) - Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。
まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。
次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。
ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文 参考訳(メタデータ) (2024-04-25T15:51:06Z) - Towards the Identifiability and Explainability for Personalized Learner
Modeling: An Inductive Paradigm [36.60917255464867]
本稿では,エンコーダ・デコーダモデルにインスパイアされた新しい応答効率応答パラダイムに基づく,識別可能な認知診断フレームワークを提案する。
診断精度を損なうことなく,ID-CDFが効果的に対処できることが示唆された。
論文 参考訳(メタデータ) (2023-09-01T07:18:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。