論文の概要: Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases
- arxiv url: http://arxiv.org/abs/2503.04691v1
- Date: Thu, 06 Mar 2025 18:35:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:00:04.666724
- Title: Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases
- Title(参考訳): 実地臨床症例におけるLCMの推論能力の定量化
- Authors: Pengcheng Qiu, Chaoyi Wu, Shuyu Liu, Weike Zhao, Ya Zhang, Yanfeng Wang, Weidi Xie,
- Abstract要約: 症例は1,453例で,MedR-Benchについて検討した。
本ベンチマークは,13の身体系と10の専門疾患にまたがって,一般的な疾患と稀な疾患の両方を対象とする。
本稿では,自由文推論応答の自動化と客観的な定量化を目的とした新しいエージェントシステムReasoning Evaluatorを提案する。
- 参考スコア(独自算出の注目度): 54.65570940512958
- License:
- Abstract: The latest reasoning-enhanced large language models (reasoning LLMs), such as DeepSeek-R1 and OpenAI-o3, have demonstrated remarkable success. However, the application of such reasoning enhancements to the highly professional medical domain has not been clearly evaluated, particularly regarding with not only assessing the final generation but also examining the quality of their reasoning processes. In this study, we present MedR-Bench, a reasoning-focused medical evaluation benchmark comprising 1,453 structured patient cases with reasoning references mined from case reports. Our benchmark spans 13 body systems and 10 specialty disorders, encompassing both common and rare diseases. In our evaluation, we introduce a versatile framework consisting of three critical clinical stages: assessment recommendation, diagnostic decision-making, and treatment planning, comprehensively capturing the LLMs' performance across the entire patient journey in healthcare. For metrics, we propose a novel agentic system, Reasoning Evaluator, designed to automate and objectively quantify free-text reasoning responses in a scalable manner from the perspectives of efficiency, factuality, and completeness by dynamically searching and performing cross-referencing checks. As a result, we assess five state-of-the-art reasoning LLMs, including DeepSeek-R1, OpenAI-o3-mini, and others. Our results reveal that current LLMs can handle relatively simple diagnostic tasks with sufficient critical assessment results, achieving accuracy generally over 85%. However, they still struggle with more complex tasks, such as assessment recommendation and treatment planning. In reasoning, their reasoning processes are generally reliable, with factuality scores exceeding 90%, though they often omit critical reasoning steps. Our study clearly reveals further development directions for current clinical LLMs.
- Abstract(参考訳): DeepSeek-R1やOpenAI-o3のような最新の理由付け強化された大規模言語モデル(LLM)は、目覚ましい成功を収めた。
しかし、特に最終世代の評価だけでなく、その推論プロセスの質についても、高度に専門的な医療領域への推論強化の適用は明確に評価されていない。
本研究は,症例報告から抽出した推論基準を持つ1,453人の構造化患者を対象にした,推論中心の医療評価ベンチマークであるMedR-Benchを提示する。
本ベンチマークは,13の身体系と10の専門疾患にまたがって,一般的な疾患と稀な疾患の両方を対象とする。
本評価では, 3つの重要な臨床段階, 評価勧告, 診断決定, 治療計画, および, 医療におけるLLMのパフォーマンスを包括的に把握する多彩な枠組みを提案する。
提案するエージェントシステムであるReasoning Evaluatorは,効率,事実性,完全性の観点から,動的に参照チェックを検索・実行することで,自由文推論応答をスケーラブルな方法で自動化・客観的に定量化する。
その結果,DeepSeek-R1やOpenAI-o3-miniなど,最先端の5つのLCMを評価した。
以上の結果から,現在のLCMは比較的単純な診断タスクを十分なクリティカルアセスメント結果で処理でき,一般に85%以上の精度を達成できることが明らかとなった。
しかし、評価勧告や治療計画など、より複雑な課題に苦慮している。
推論において、それらの推論プロセスは一般的に信頼性が高く、事実性スコアは90%を超えているが、重要な推論ステップを省略することが多い。
本研究は,現在臨床 LLM のさらなる開発方向性を明らかにするものである。
関連論文リスト
- Evaluating Computational Accuracy of Large Language Models in Numerical Reasoning Tasks for Healthcare Applications [0.0]
医療分野で大きな言語モデル(LLM)が変革的なツールとして登場した。
数値推論の習熟度、特に臨床応用のような高い評価の領域では、未解明のままである。
本研究では,医療現場における数値推論作業におけるLCMの計算精度について検討した。
論文 参考訳(メタデータ) (2025-01-14T04:29:43Z) - Superhuman performance of a large language model on the reasoning tasks of a physician [10.043418251604624]
医療タスクにおける大規模言語モデル(LLM)の性能は、伝統的に複数の選択質問ベンチマークを用いて評価されてきた。
我々はOpenAIのo1-previewモデルを評価する。これは、応答を生成する前に、思考プロセスの連鎖を介して実行時間を向上させるために開発されたモデルである。
論文 参考訳(メタデータ) (2024-12-14T14:46:18Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。
まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。
次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。
ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文 参考訳(メタデータ) (2024-04-25T15:51:06Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。
本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。
さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。
これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - Towards Automatic Evaluation for LLMs' Clinical Capabilities: Metric, Data, and Algorithm [15.627870862369784]
大規模言語モデル (LLMs) は, 臨床診断の効率向上への関心が高まっている。
臨床サービス提供におけるLCMの能力を評価するための自動評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-03-25T06:17:54Z) - Evaluation of General Large Language Models in Contextually Assessing
Semantic Concepts Extracted from Adult Critical Care Electronic Health Record
Notes [17.648021186810663]
本研究の目的は,大規模言語モデル(LLM)の実際の臨床ノートの理解と処理における性能を評価することである。
GPTファミリーモデルは、コスト効率と時間節約能力によって証明された、かなりの効率性を示している。
論文 参考訳(メタデータ) (2024-01-24T16:52:37Z) - An Automatic Evaluation Framework for Multi-turn Medical Consultations
Capabilities of Large Language Models [22.409334091186995]
大型言語モデル(LLM)はしばしば幻覚に悩まされ、過度に自信があるが誤った判断を下す。
本稿では,マルチターンコンサルテーションにおける仮想医師としてのLCMの実用能力を評価するための自動評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-05T09:24:48Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。