論文の概要: Proactive Reasoning-with-Retrieval Framework for Medical Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2510.18303v1
- Date: Tue, 21 Oct 2025 05:18:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.93058
- Title: Proactive Reasoning-with-Retrieval Framework for Medical Multimodal Large Language Models
- Title(参考訳): 医療用マルチモーダル大言語モデルのための確率的推論と検索フレームワーク
- Authors: Lehan Wang, Yi Qin, Honglong Yang, Xiaomeng Li,
- Abstract要約: 我々は,Med-RwR を用いた最初のマルチモーダル医療推論フレームワークを提案する。
Med-RwRは、推論中に観察された症状やドメイン固有の医療概念を問い合わせることで、外部知識を積極的に回収する。
様々な公開医療ベンチマークの評価は、Med-RwRのベースラインモデルに対する大幅な改善を示している。
- 参考スコア(独自算出の注目度): 15.530083855947987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Incentivizing the reasoning ability of Multimodal Large Language Models (MLLMs) is essential for medical applications to transparently analyze medical scans and provide reliable diagnosis. However, existing medical MLLMs rely solely on internal knowledge during reasoning, leading to hallucinated reasoning and factual inaccuracies when encountering cases beyond their training scope. Although recent Agentic Retrieval-Augmented Generation (RAG) methods elicit the medical model's proactive retrieval ability during reasoning, they are confined to unimodal LLMs, neglecting the crucial visual information during reasoning and retrieval. Consequently, we propose the first Multimodal Medical Reasoning-with-Retrieval framework, Med-RwR, which actively retrieves external knowledge by querying observed symptoms or domain-specific medical concepts during reasoning. Specifically, we design a two-stage reinforcement learning strategy with tailored rewards that stimulate the model to leverage both visual diagnostic findings and textual clinical information for effective retrieval. Building on this foundation, we further propose a Confidence-Driven Image Re-retrieval (CDIR) method for test-time scaling when low prediction confidence is detected. Evaluation on various public medical benchmarks demonstrates Med-RwR's significant improvements over baseline models, proving the effectiveness of enhancing reasoning capabilities with external knowledge integration. Furthermore, Med-RwR demonstrates remarkable generalizability to unfamiliar domains, evidenced by 8.8% performance gain on our proposed EchoCardiography Benchmark (ECBench), despite the scarcity of echocardiography data in the training corpus. Our data, model, and codes will be made publicly available at https://github.com/xmed-lab/Med-RwR.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)の推論能力の活性化は、医療応用において、医療スキャンを透過的に分析し、信頼性の高い診断を提供するために不可欠である。
しかし、既存の医療MLLMは推論において内的知識のみに依存しており、訓練範囲を超えて事件に遭遇した場合の幻覚的推論と事実的不正確性につながる。
近年のRAG(Agenic Retrieval-Augmented Generation)法は, 推論において, 医用モデルの積極的な検索能力を引き出すものであるが, 推論と検索において重要な視覚情報を無視して, 単一のLDMに制限されている。
そこで,本研究では,観察された症状や領域固有の医療概念を照会し,外部知識を積極的に検索する,Med-RwRを初めて提案する。
具体的には、2段階の強化学習戦略を設計し、視覚的診断所見とテキスト臨床情報の両方を有効検索に活用するようモデルに刺激を与える。
この基盤を基盤として、予測信頼度が低い場合に、テスト時間スケーリングのための信頼性駆動画像再検索法(CDIR)を提案する。
様々な公開医療ベンチマークの評価は、Med-RwRがベースラインモデルよりも大幅に改善していることを示し、外部知識の統合による推論能力の向上の有効性を証明している。
さらに、Med-RwRは、トレーニングコーパスにおけるエコー心電図データの不足にもかかわらず、提案したEchoCardiography Benchmark(ECBench)において8.8%の性能向上によって証明された、不慣れな領域に対する顕著な一般化性を示した。
私たちのデータ、モデル、コードはhttps://github.com/xmed-lab/Med-RwR.comで公開されます。
関連論文リスト
- MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs [21.189398460029008]
MedXIAOHEは、医学的理解と推論を現実の臨床に応用するために設計された医療ビジョン言語基盤モデルである。
異種医療コーパスを組織し,知識範囲を広げるエンティティ対応型継続事前学習フレームワークを提案する。
医療専門家レベルの推論と相互作用のために、MedXIAOHEは強化学習とツール強化エージェントトレーニングを通じて様々な医学的推論パターンを取り入れている。
論文 参考訳(メタデータ) (2026-02-13T08:19:38Z) - Towards Reliable Medical LLMs: Benchmarking and Enhancing Confidence Estimation of Large Language Models in Medical Consultation [97.36081721024728]
本稿では,現実的な医療相談におけるマルチターンインタラクションの信頼性を評価するための最初のベンチマークを提案する。
本ベンチマークでは,3種類の医療データを統合し,診断を行う。
本稿では,エビデンスを基盤とした言語自己評価フレームワークであるMedConfを紹介する。
論文 参考訳(メタデータ) (2026-01-22T04:51:39Z) - MedEyes: Learning Dynamic Visual Focus for Medical Progressive Diagnosis [17.59077756990045]
MedEyesは、臨床医スタイルの診断推論を動的にモデル化する強化学習フレームワークである。
二重モード探索法を用いて診断過程をエミュレートし, 組織的異常局所化をスキャンし, 詳細な地域分析を行う。
実験の結果、MedEyesは複数の医療用VQAベンチマークで+8.5%の性能向上を達成した。
論文 参考訳(メタデータ) (2025-11-27T01:47:43Z) - MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。
まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。
次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2025-10-24T02:11:05Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - Beyond Classification Accuracy: Neural-MedBench and the Need for Deeper Reasoning Benchmarks [21.203358914772465]
近年の視覚言語モデル (VLM) の進歩は, 標準医学ベンチマークにおいて顕著な性能を発揮しているが, その真の臨床推論能力は未だ不明である。
我々はニューラルメドベンチ(Neural-MedBench)について紹介する。これは、神経学におけるマルチモーダルな臨床推論の限界を調査するためのコンパクトで推論集約的なベンチマークである。
論文 参考訳(メタデータ) (2025-09-26T12:20:01Z) - RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。
RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文 参考訳(メタデータ) (2025-09-24T10:36:14Z) - End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning [52.12425911708585]
Deep-DxSearchは、強化学習(RL)でエンドツーエンドに訓練されたエージェントRAGシステムである。
Deep-DxSearchでは,患者記録と信頼性のある医療知識情報を含む大規模医療検索コーパスを構築した。
実験により、エンドツーエンドのRLトレーニングフレームワークは、プロンプトエンジニアリングやトレーニングフリーなRAGアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-08-21T17:42:47Z) - GEMeX-RMCoT: An Enhanced Med-VQA Dataset for Region-Aware Multimodal Chain-of-Thought Reasoning [60.03671205298294]
医学的視覚的質問応答は、医学的イメージに基づいた自然言語的質問にモデルで答えることによって、臨床的な意思決定を支援することを目的としている。
現在の方法はまだ、答えの信頼性の制限と解釈性の低下に悩まされている。
この研究はまず、回答を生成するプロセスが中間的推論ステップのシーケンスに先行する領域対応マルチモーダル・チェーン・オブ・ソートデータセットを提案する。
論文 参考訳(メタデータ) (2025-06-22T08:09:58Z) - REMEMBER: Retrieval-based Explainable Multimodal Evidence-guided Modeling for Brain Evaluation and Reasoning in Zero- and Few-shot Neurodegenerative Diagnosis [6.446611581074913]
検索型マルチモーダル誘導型脳評価・推論モデルREMEMBERについて紹介する。
REMEMBERは、脳MRIスキャンを用いたゼロショットと少数ショットのアルツハイマーの診断を容易にする新しい機械学習フレームワークである。
実験結果から,REMEMBERはゼロショットと少数ショットの堅牢な性能を実現することが示された。
論文 参考訳(メタデータ) (2025-04-12T22:06:15Z) - MedHallBench: A New Benchmark for Assessing Hallucination in Medical Large Language Models [0.0]
医療大言語モデル(MLLM)は医療応用の可能性を示している。
幻覚に対する寛容性は、患者医療に重大なリスクをもたらす。
本稿では,MLLMにおける幻覚の評価と緩和のためのベンチマークフレームワークであるMedHallBenchを紹介する。
論文 参考訳(メタデータ) (2024-12-25T16:51:29Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。
MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。
マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文 参考訳(メタデータ) (2024-04-10T07:41:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。