論文の概要: Proactive Reasoning-with-Retrieval Framework for Medical Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2510.18303v1
- Date: Tue, 21 Oct 2025 05:18:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.93058
- Title: Proactive Reasoning-with-Retrieval Framework for Medical Multimodal Large Language Models
- Title(参考訳): 医療用マルチモーダル大言語モデルのための確率的推論と検索フレームワーク
- Authors: Lehan Wang, Yi Qin, Honglong Yang, Xiaomeng Li,
- Abstract要約: 我々は,Med-RwR を用いた最初のマルチモーダル医療推論フレームワークを提案する。
Med-RwRは、推論中に観察された症状やドメイン固有の医療概念を問い合わせることで、外部知識を積極的に回収する。
様々な公開医療ベンチマークの評価は、Med-RwRのベースラインモデルに対する大幅な改善を示している。
- 参考スコア(独自算出の注目度): 15.530083855947987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Incentivizing the reasoning ability of Multimodal Large Language Models (MLLMs) is essential for medical applications to transparently analyze medical scans and provide reliable diagnosis. However, existing medical MLLMs rely solely on internal knowledge during reasoning, leading to hallucinated reasoning and factual inaccuracies when encountering cases beyond their training scope. Although recent Agentic Retrieval-Augmented Generation (RAG) methods elicit the medical model's proactive retrieval ability during reasoning, they are confined to unimodal LLMs, neglecting the crucial visual information during reasoning and retrieval. Consequently, we propose the first Multimodal Medical Reasoning-with-Retrieval framework, Med-RwR, which actively retrieves external knowledge by querying observed symptoms or domain-specific medical concepts during reasoning. Specifically, we design a two-stage reinforcement learning strategy with tailored rewards that stimulate the model to leverage both visual diagnostic findings and textual clinical information for effective retrieval. Building on this foundation, we further propose a Confidence-Driven Image Re-retrieval (CDIR) method for test-time scaling when low prediction confidence is detected. Evaluation on various public medical benchmarks demonstrates Med-RwR's significant improvements over baseline models, proving the effectiveness of enhancing reasoning capabilities with external knowledge integration. Furthermore, Med-RwR demonstrates remarkable generalizability to unfamiliar domains, evidenced by 8.8% performance gain on our proposed EchoCardiography Benchmark (ECBench), despite the scarcity of echocardiography data in the training corpus. Our data, model, and codes will be made publicly available at https://github.com/xmed-lab/Med-RwR.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)の推論能力の活性化は、医療応用において、医療スキャンを透過的に分析し、信頼性の高い診断を提供するために不可欠である。
しかし、既存の医療MLLMは推論において内的知識のみに依存しており、訓練範囲を超えて事件に遭遇した場合の幻覚的推論と事実的不正確性につながる。
近年のRAG(Agenic Retrieval-Augmented Generation)法は, 推論において, 医用モデルの積極的な検索能力を引き出すものであるが, 推論と検索において重要な視覚情報を無視して, 単一のLDMに制限されている。
そこで,本研究では,観察された症状や領域固有の医療概念を照会し,外部知識を積極的に検索する,Med-RwRを初めて提案する。
具体的には、2段階の強化学習戦略を設計し、視覚的診断所見とテキスト臨床情報の両方を有効検索に活用するようモデルに刺激を与える。
この基盤を基盤として、予測信頼度が低い場合に、テスト時間スケーリングのための信頼性駆動画像再検索法(CDIR)を提案する。
様々な公開医療ベンチマークの評価は、Med-RwRがベースラインモデルよりも大幅に改善していることを示し、外部知識の統合による推論能力の向上の有効性を証明している。
さらに、Med-RwRは、トレーニングコーパスにおけるエコー心電図データの不足にもかかわらず、提案したEchoCardiography Benchmark(ECBench)において8.8%の性能向上によって証明された、不慣れな領域に対する顕著な一般化性を示した。
私たちのデータ、モデル、コードはhttps://github.com/xmed-lab/Med-RwR.comで公開されます。
関連論文リスト
- Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - Beyond Classification Accuracy: Neural-MedBench and the Need for Deeper Reasoning Benchmarks [21.203358914772465]
近年の視覚言語モデル (VLM) の進歩は, 標準医学ベンチマークにおいて顕著な性能を発揮しているが, その真の臨床推論能力は未だ不明である。
我々はニューラルメドベンチ(Neural-MedBench)について紹介する。これは、神経学におけるマルチモーダルな臨床推論の限界を調査するためのコンパクトで推論集約的なベンチマークである。
論文 参考訳(メタデータ) (2025-09-26T12:20:01Z) - RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。
RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文 参考訳(メタデータ) (2025-09-24T10:36:14Z) - End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning [52.12425911708585]
Deep-DxSearchは、強化学習(RL)でエンドツーエンドに訓練されたエージェントRAGシステムである。
Deep-DxSearchでは,患者記録と信頼性のある医療知識情報を含む大規模医療検索コーパスを構築した。
実験により、エンドツーエンドのRLトレーニングフレームワークは、プロンプトエンジニアリングやトレーニングフリーなRAGアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-08-21T17:42:47Z) - MedHallBench: A New Benchmark for Assessing Hallucination in Medical Large Language Models [0.0]
医療大言語モデル(MLLM)は医療応用の可能性を示している。
幻覚に対する寛容性は、患者医療に重大なリスクをもたらす。
本稿では,MLLMにおける幻覚の評価と緩和のためのベンチマークフレームワークであるMedHallBenchを紹介する。
論文 参考訳(メタデータ) (2024-12-25T16:51:29Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。
MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。
マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文 参考訳(メタデータ) (2024-04-10T07:41:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。