論文の概要: Medical Reasoning in the Era of LLMs: A Systematic Review of Enhancement Techniques and Applications
- arxiv url: http://arxiv.org/abs/2508.00669v1
- Date: Fri, 01 Aug 2025 14:41:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.915473
- Title: Medical Reasoning in the Era of LLMs: A Systematic Review of Enhancement Techniques and Applications
- Title(参考訳): LLM時代の医学的推論:拡張技術と応用の体系的レビュー
- Authors: Wenxuan Wang, Zizhan Ma, Meidan Ding, Shiyi Zheng, Shengyuan Liu, Jie Liu, Jiaming Ji, Wenting Chen, Xiang Li, Linlin Shen, Yixuan Yuan,
- Abstract要約: 医学における大きな言語モデル(LLM)は印象的な能力を実現しているが、体系的で透明で検証可能な推論を行う能力に重大なギャップが残っている。
本稿は、この新興分野に関する最初の体系的なレビューを提供する。
本稿では,学習時間戦略とテスト時間メカニズムに分類した推論強化手法の分類法を提案する。
- 参考スコア(独自算出の注目度): 59.721265428780946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The proliferation of Large Language Models (LLMs) in medicine has enabled impressive capabilities, yet a critical gap remains in their ability to perform systematic, transparent, and verifiable reasoning, a cornerstone of clinical practice. This has catalyzed a shift from single-step answer generation to the development of LLMs explicitly designed for medical reasoning. This paper provides the first systematic review of this emerging field. We propose a taxonomy of reasoning enhancement techniques, categorized into training-time strategies (e.g., supervised fine-tuning, reinforcement learning) and test-time mechanisms (e.g., prompt engineering, multi-agent systems). We analyze how these techniques are applied across different data modalities (text, image, code) and in key clinical applications such as diagnosis, education, and treatment planning. Furthermore, we survey the evolution of evaluation benchmarks from simple accuracy metrics to sophisticated assessments of reasoning quality and visual interpretability. Based on an analysis of 60 seminal studies from 2022-2025, we conclude by identifying critical challenges, including the faithfulness-plausibility gap and the need for native multimodal reasoning, and outlining future directions toward building efficient, robust, and sociotechnically responsible medical AI.
- Abstract(参考訳): 医学におけるLarge Language Models(LLMs)の増殖は印象的な機能を実現しているが、臨床実践の基盤である体系的、透明で検証可能な推論を行う能力に重要なギャップが残っている。
これは、単一段階の回答生成から、医学的推論のために明示的に設計されたLSMの開発へと移行した。
本稿は、この新興分野に関する最初の体系的なレビューを提供する。
本稿では,学習時間戦略(微調整,強化学習など)とテスト時間機構(即時工学,マルチエージェントシステムなど)に分類される推論向上手法の分類法を提案する。
これらの手法が、さまざまなデータモダリティ(テキスト、画像、コード)や、診断、教育、治療計画といった重要な臨床応用においてどのように適用されるかを分析する。
さらに、簡単な精度測定から、推論品質と視覚的解釈可能性の高度な評価まで、評価ベンチマークの進化を調査する。
2022-2025年の60のセミナル研究の分析に基づいて、忠実さと楽観性のギャップ、ネイティブなマルチモーダル推論の必要性、効率的で堅牢で社会技術的に責任のある医療AIの構築に向けた今後の方向性を概説するなど、重要な課題を特定した。
関連論文リスト
- Prompt Mechanisms in Medical Imaging: A Comprehensive Survey [18.072753363565322]
深層学習は医療画像に変革をもたらす。
しかし、その臨床導入は、データの不足、分散シフト、堅牢なタスクの一般化の必要性といった課題によって、しばしば妨げられている。
深層学習モデルを導くための重要な戦略として,プロンプトベースの方法論が登場している。
論文 参考訳(メタデータ) (2025-06-28T03:06:25Z) - MedBookVQA: A Systematic and Comprehensive Medical Benchmark Derived from Open-Access Book [5.318470975871017]
MedBookVQAは、オープンアクセス医療教科書から派生した、体系的で包括的なマルチモーダルベンチマークである。
当科では, モダリティ認識, 分類, 解剖学的診断, 症状診断, 外科的手術を含む, 5000の臨床的関連質問項目を作成した。
我々は、プロプライエタリ、オープンソース、医療、推論モデルを含む幅広いMLLMを評価し、タスクタイプとモデルカテゴリ間での大幅なパフォーマンス格差を明らかにした。
論文 参考訳(メタデータ) (2025-06-01T06:28:36Z) - MedAgent-Pro: Towards Evidence-based Multi-modal Medical Diagnosis via Reasoning Agentic Workflow [14.478357882578234]
現代医学では、臨床診断は主にテキストおよび視覚データの包括的分析に依存している。
大規模視覚言語モデル(VLM)およびエージェントベース手法の最近の進歩は、医学的診断に大きな可能性を秘めている。
現代医学における診断原理に従う新しいエージェント推論パラダイムであるMedAgent-Proを提案する。
論文 参考訳(メタデータ) (2025-03-21T14:04:18Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Systematic Literature Review on Clinical Trial Eligibility Matching [0.24554686192257422]
レビューでは、説明可能なAIと標準化されたオントロジーがクリニックの信頼を高め、採用を広げる方法が強調されている。
臨床治験採用におけるNLPの変革的ポテンシャルを十分に実現するためには、高度な意味的および時間的表現、拡張されたデータ統合、厳密な予測的評価のさらなる研究が必要である。
論文 参考訳(メタデータ) (2025-03-02T11:45:50Z) - Uncertainty-aware abstention in medical diagnosis based on medical texts [87.88110503208016]
本研究は,AI支援医療診断における信頼性の重要課題について論じる。
本研究は,診断に自信がなければ,診断システムによる意思決定の回避を可能にする選択予測手法に焦点をあてる。
我々は、選択予測タスクにおける信頼性を高めるための新しい最先端手法であるHUQ-2を紹介する。
論文 参考訳(メタデータ) (2025-02-25T10:15:21Z) - Reasoning-Enhanced Healthcare Predictions with Knowledge Graph Community Retrieval [61.70489848327436]
KAREは、知識グラフ(KG)コミュニティレベルの検索と大規模言語モデル(LLM)推論を統合する新しいフレームワークである。
MIMIC-IIIでは最大10.8~15.0%、MIMIC-IVでは12.6~12.7%である。
論文 参考訳(メタデータ) (2024-10-06T18:46:28Z) - Toward Large Language Models as a Therapeutic Tool: Comparing Prompting Techniques to Improve GPT-Delivered Problem-Solving Therapy [6.952909762512736]
そこで本研究では,大規模言語モデル (LLM) を指導するためのプロンプトエンジニアリングの効果について検討する。
本稿では,プロンプトエンジニアリング手法を適切に利用することにより,プロトタイズされた治療を提供するモデルの能力を向上できることを実証する。
論文 参考訳(メタデータ) (2024-08-27T17:25:16Z) - A Survey of Models for Cognitive Diagnosis: New Developments and Future Directions [66.40362209055023]
本研究の目的は,認知診断の現在のモデルについて,機械学習を用いた新たな展開に注目した調査を行うことである。
モデル構造,パラメータ推定アルゴリズム,モデル評価方法,適用例を比較して,認知診断モデルの最近の傾向を概観する。
論文 参考訳(メタデータ) (2024-07-07T18:02:00Z) - Validating polyp and instrument segmentation methods in colonoscopy through Medico 2020 and MedAI 2021 Challenges [58.32937972322058]
メディコオートマチックポリープセグメンテーション(Medico 2020)と「メディコ:医療画像の透明性(MedAI 2021)」コンペティション。
本報告では, それぞれのコントリビューションを包括的に分析し, ベストパフォーマンスメソッドの強さを強調し, クリニックへの臨床翻訳の可能性について考察する。
論文 参考訳(メタデータ) (2023-07-30T16:08:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。