論文の概要: Advances in LLM Reasoning Enable Flexibility in Clinical Problem-Solving
- arxiv url: http://arxiv.org/abs/2601.11866v1
- Date: Sat, 17 Jan 2026 01:13:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.348766
- Title: Advances in LLM Reasoning Enable Flexibility in Clinical Problem-Solving
- Title(参考訳): クリニカル・イシュー・ソルビングにおけるLLM推論の進歩と柔軟性
- Authors: Kie Shidara, Preethi Prem, Jonathan Kim, Anna Podlasek, Feng Liu, Ahmed Alaa, Danilo Bernardo,
- Abstract要約: 大規模言語モデル (LLM) は、医学的質問応答ベンチマークにおいて高い精度を達成している。
臨床推論におけるLLMの認知的柔軟性の向上について質問した。
OpenAI、Grok、Gemini、Claude、DeepSeekファミリーの推論モデルについて、医学的抽象化と推論コーパス(mARC)について評価した。
- 参考スコア(独自算出の注目度): 5.045210915004845
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have achieved high accuracy on medical question-answer (QA) benchmarks, yet their capacity for flexible clinical reasoning has been debated. Here, we asked whether advances in reasoning LLMs improve their cognitive flexibility in clinical reasoning. We assessed reasoning models from the OpenAI, Grok, Gemini, Claude, and DeepSeek families on the medicine abstraction and reasoning corpus (mARC), an adversarial medical QA benchmark which utilizes the Einstellung effect to induce inflexible overreliance on learned heuristic patterns in contexts where they become suboptimal. We found that strong reasoning models avoided Einstellung-based traps more often than weaker reasoning models, achieving human-level performance on mARC. On questions most commonly missed by physicians, the top 5 performing models answered 55% to 70% correctly with high confidence, indicating that these models may be less susceptible than humans to Einstellung effects. Our results indicate that strong reasoning models demonstrate improved flexibility in medical reasoning, achieving performance on par with humans on mARC.
- Abstract(参考訳): 大規模言語モデル (LLM) はQA(英語版)ベンチマークで高い精度を達成しているが、柔軟な臨床推論の能力は議論されている。
そこで我々は,臨床推論におけるLLMの認知的柔軟性の向上について質問した。
OpenAI,Grok,Gemini,Claude,DeepSeekファミリーの推論モデルを用いて,医学的抽象化と推論コーパス(mARC)の評価を行った。
強い推論モデルでは、弱い推論モデルよりもEinstellungベースのトラップを回避し、mARC上での人間レベルのパフォーマンスを実現した。
医師が最もよく見逃す質問に対して、トップ5の演奏モデルは55%から70%の正確さで答えた。
以上の結果から,強い推論モデルにより,医学的推論の柔軟性が向上し,mARC上でのヒトと同等の性能が得られたことが示唆された。
関連論文リスト
- OncoReason: Structuring Clinical Reasoning in LLMs for Robust and Interpretable Survival Prediction [2.904892426557913]
大規模言語モデル (LLM) は, バイオメディカルNLPにおいて高い性能を示した。
本稿では,自己回帰型LPMと結果予測のための臨床推論を整合させる,統合型マルチタスク学習フレームワークを提案する。
マルチタスク・クリニカル・モデリングにおける推論・アライメントの重要性について検討した。
論文 参考訳(メタデータ) (2025-10-20T13:35:12Z) - ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning [54.30630356786752]
ReasonMedは、これまでで最大の医療推論データセットで、370万の高品質な例がある。
マルチエージェント生成、検証、改善プロセスを通じて構築される。
ReasonMedを用いて、簡潔な答えの要約と詳細なCoT推論を統合することで、最も堅牢な微調整結果が得られる。
論文 参考訳(メタデータ) (2025-06-11T08:36:55Z) - Evaluating the performance and fragility of large language models on the self-assessment for neurological surgeons [0.7587293779231332]
神経外科医セルフアセスメント(CNS-SANS)の質問は、脳外科の住民がボード検査を書くために広く利用されている。
本研究の目的は,脳神経外科の板状質問に対する最先端のLSMの性能評価と,障害文の含意に対する頑健性を評価することである。
28大言語モデルを用いて包括的評価を行った。
これらのモデルは、CNS-SANSから導かれた2,904の脳神経外科検査で試験された。
論文 参考訳(メタデータ) (2025-05-29T14:27:14Z) - ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification [57.22053411719822]
ChestX-Reasoner(チェストX-Reasoner)は、臨床報告から直接採掘されるプロセスの監督を活用するために設計された放射線診断MLLMである。
我々の2段階のトレーニングフレームワークは、モデル推論と臨床標準との整合性を高めるために、プロセス報酬によって指導された教師付き微調整と強化学習を組み合わせる。
論文 参考訳(メタデータ) (2025-04-29T16:48:23Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Limitations of Large Language Models in Clinical Problem-Solving Arising from Inflexible Reasoning [3.3482359447109866]
LLM(Large Language Models)は、医療質問応答(QA)ベンチマークにおいて人間レベルの精度を達成した。
オープンエンドの臨床シナリオをナビゲートする際の制限が最近示されている。
医学的抽象化と推論コーパス(M-ARC)について紹介する。
現状のo1モデルやGeminiモデルを含むLSMは,M-ARCの医師と比較して性能が劣ることがわかった。
論文 参考訳(メタデータ) (2025-02-05T18:14:27Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Critique of Impure Reason: Unveiling the reasoning behaviour of medical Large Language Models [0.0]
医学領域全体でのLLM(Large Language Models)の普及にもかかわらず、彼らの推論行動に対処する研究が驚くほど不足している。
この文脈では、説明可能なAI(XAI)と等価であるため、高いレベルの予測精度とは対照的に、推論行動を理解することの重要性を強調している。
論文 参考訳(メタデータ) (2024-12-20T10:06:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。