Fugu-MT 論文翻訳(概要): Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases

論文の概要: Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases

arxiv url: http://arxiv.org/abs/2503.04691v1
Date: Thu, 06 Mar 2025 18:35:39 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-07 17:59:00.965401
Title: Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases
Title（参考訳）: 実地臨床症例におけるLCMの推論能力の定量化
Authors: Pengcheng Qiu, Chaoyi Wu, Shuyu Liu, Weike Zhao, Ya Zhang, Yanfeng Wang, Weidi Xie,
Abstract要約: 症例は1,453例で,MedR-Benchについて検討した。本ベンチマークは,13の身体系と10の専門疾患にまたがって,一般的な疾患と稀な疾患の両方を対象とする。本稿では,自由文推論応答の自動化と客観的な定量化を目的とした新しいエージェントシステムReasoning Evaluatorを提案する。
参考スコア（独自算出の注目度）: 54.65570940512958
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The latest reasoning-enhanced large language models (reasoning LLMs), such as DeepSeek-R1 and OpenAI-o3, have demonstrated remarkable success. However, the application of such reasoning enhancements to the highly professional medical domain has not been clearly evaluated, particularly regarding with not only assessing the final generation but also examining the quality of their reasoning processes. In this study, we present MedR-Bench, a reasoning-focused medical evaluation benchmark comprising 1,453 structured patient cases with reasoning references mined from case reports. Our benchmark spans 13 body systems and 10 specialty disorders, encompassing both common and rare diseases. In our evaluation, we introduce a versatile framework consisting of three critical clinical stages: assessment recommendation, diagnostic decision-making, and treatment planning, comprehensively capturing the LLMs' performance across the entire patient journey in healthcare. For metrics, we propose a novel agentic system, Reasoning Evaluator, designed to automate and objectively quantify free-text reasoning responses in a scalable manner from the perspectives of efficiency, factuality, and completeness by dynamically searching and performing cross-referencing checks. As a result, we assess five state-of-the-art reasoning LLMs, including DeepSeek-R1, OpenAI-o3-mini, and others. Our results reveal that current LLMs can handle relatively simple diagnostic tasks with sufficient critical assessment results, achieving accuracy generally over 85%. However, they still struggle with more complex tasks, such as assessment recommendation and treatment planning. In reasoning, their reasoning processes are generally reliable, with factuality scores exceeding 90%, though they often omit critical reasoning steps. Our study clearly reveals further development directions for current clinical LLMs.
Abstract（参考訳）: DeepSeek-R1やOpenAI-o3のような最新の理由付け強化された大規模言語モデル(LLM)は、目覚ましい成功を収めた。しかし、特に最終世代の評価だけでなく、その推論プロセスの質についても、高度に専門的な医療領域への推論強化の適用は明確に評価されていない。本研究は,症例報告から抽出した推論基準を持つ1,453人の構造化患者を対象にした,推論中心の医療評価ベンチマークであるMedR-Benchを提示する。本ベンチマークは,13の身体系と10の専門疾患にまたがって,一般的な疾患と稀な疾患の両方を対象とする。本評価では, 3つの重要な臨床段階, 評価勧告, 診断決定, 治療計画, および, 医療におけるLLMのパフォーマンスを包括的に把握する多彩な枠組みを提案する。提案するエージェントシステムであるReasoning Evaluatorは,効率,事実性,完全性の観点から,動的に参照チェックを検索・実行することで,自由文推論応答をスケーラブルな方法で自動化・客観的に定量化する。その結果,DeepSeek-R1やOpenAI-o3-miniなど,最先端の5つのLCMを評価した。以上の結果から,現在のLCMは比較的単純な診断タスクを十分なクリティカルアセスメント結果で処理でき,一般に85%以上の精度を達成できることが明らかとなった。しかし、評価勧告や治療計画など、より複雑な課題に苦慮している。推論において、それらの推論プロセスは一般的に信頼性が高く、事実性スコアは90%を超えているが、重要な推論ステップを省略することが多い。本研究は,現在臨床 LLM のさらなる開発方向性を明らかにするものである。

関連論文リスト

HIVMedQA: Benchmarking large language models for HIV medical decision support [0.0]
HIV管理は、その複雑さのために魅力的なユースケースである。大規模言語モデル(LLM)を臨床実践に統合すると、正確性、潜在的な害、臨床受理に関する懸念が高まる。本研究は、HIV治療におけるLSMの現在の能力を評価し、その強度と限界を強調した。
論文参考訳（メタデータ） (2025-07-24T07:06:30Z)
Reasoning Models Can be Easily Hacked by Fake Reasoning Bias [59.79548223686273]
我々は、Reasoning Theatre Bias (RTB)を評価するための総合的なベンチマークTheATERを紹介する。簡単なクイズとフェイク・オブ・サートを含む6種類のバイアスタイプについて検討した。我々は、RTBの最も強力な形式として、'hallow reasoning'-plausibleだが欠陥のある議論を識別する。
論文参考訳（メタデータ） (2025-07-18T09:06:10Z)
Automating Expert-Level Medical Reasoning Evaluation of Large Language Models [26.702477426812333]
我々はMedThink-Benchを紹介した。MedThink-Benchは、大規模言語モデルの医学的推論の厳密で説明可能な、スケーラブルな評価のためのベンチマークである。また, LLM-as-a-Judge 機構と精細な有理性を利用した新しい評価フレームワーク LLM-w-Ref を提案する。全体として、MedThink-Bench は LLM の医学的推論を評価し、安全で責任ある臨床実践の展開を進めるための基礎的なツールを提供している。
論文参考訳（メタデータ） (2025-07-10T17:58:26Z)
ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification [57.22053411719822]
ChestX-Reasoner(チェストX-Reasoner)は、臨床報告から直接採掘されるプロセスの監督を活用するために設計された放射線診断MLLMである。我々の2段階のトレーニングフレームワークは、モデル推論と臨床標準との整合性を高めるために、プロセス報酬によって指導された教師付き微調整と強化学習を組み合わせる。
論文参考訳（メタデータ） (2025-04-29T16:48:23Z)
Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文参考訳（メタデータ） (2025-04-21T16:51:11Z)
Medical Reasoning in LLMs: An In-Depth Analysis of DeepSeek R1 [0.0]
本研究は、100症例のMedQAを用いて、DeepSeek R1の専門的パターンに対する医学的推論を評価する。このモデルは、診断精度93%を達成し、鑑別診断、ガイドラインに基づく治療選択、患者固有の因子の統合を通じて、体系的な臨床的判断を実証した。誤り分析では, バイアスのアンカー, 競合するデータの整合性の課題, 代替案の探索不足, 過剰思考, 知識ギャップ, 中間的治療に対する決定的治療の早期優先順位付けなど, 持続的な限界が認められた。
論文参考訳（メタデータ） (2025-03-27T09:18:08Z)
Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
Evaluating Computational Accuracy of Large Language Models in Numerical Reasoning Tasks for Healthcare Applications [0.0]
医療分野で大きな言語モデル(LLM)が変革的なツールとして登場した。数値推論の習熟度、特に臨床応用のような高い評価の領域では、未解明のままである。本研究では,医療現場における数値推論作業におけるLCMの計算精度について検討した。
論文参考訳（メタデータ） (2025-01-14T04:29:43Z)
Superhuman performance of a large language model on the reasoning tasks of a physician [10.043418251604624]
医療タスクにおける大規模言語モデル(LLM)の性能は、伝統的に複数の選択質問ベンチマークを用いて評価されてきた。我々はOpenAIのo1-previewモデルを評価する。これは、応答を生成する前に、思考プロセスの連鎖を介して実行時間を向上させるために開発されたモデルである。
論文参考訳（メタデータ） (2024-12-14T14:46:18Z)
SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy [45.2233252981348]
臨床知識を符号化するための言語モデル(LLM)が示されている。 6つの最先端モデルをベンチマークする評価フレームワークであるSemioLLMを提案する。ほとんどのLSMは、脳内の発作発生領域の確率的予測を正確かつ確実に生成できることを示す。
論文参考訳（メタデータ） (2024-07-03T11:02:12Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文参考訳（メタデータ） (2024-04-25T15:51:06Z)
Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文参考訳（メタデータ） (2024-04-08T14:15:56Z)
Does Biomedical Training Lead to Better Medical Performance? [2.3814275542331385]
大規模言語モデル(LLM)は、患者のケア、診断、管理プロセスに大きく貢献することが期待されている。本研究では, バイオメディカルトレーニングが6つの実践的医療課題の文脈に及ぼす影響について検討した。
論文参考訳（メタデータ） (2024-04-05T12:51:37Z)
Evaluation of General Large Language Models in Contextually Assessing Semantic Concepts Extracted from Adult Critical Care Electronic Health Record Notes [17.648021186810663]
本研究の目的は,大規模言語モデル(LLM)の実際の臨床ノートの理解と処理における性能を評価することである。 GPTファミリーモデルは、コスト効率と時間節約能力によって証明された、かなりの効率性を示している。
論文参考訳（メタデータ） (2024-01-24T16:52:37Z)
Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文参考訳（メタデータ） (2023-05-30T22:05:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。