論文の概要: MMedExpert-R1: Strengthening Multimodal Medical Reasoning via Domain-Specific Adaptation and Clinical Guideline Reinforcement
- arxiv url: http://arxiv.org/abs/2601.10949v2
- Date: Mon, 19 Jan 2026 02:44:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 18:45:13.555623
- Title: MMedExpert-R1: Strengthening Multimodal Medical Reasoning via Domain-Specific Adaptation and Clinical Guideline Reinforcement
- Title(参考訳): MMedExpert-R1: ドメイン特異的適応と臨床ガイドライン強化によるマルチモーダル医療推論の強化
- Authors: Meidan Ding, Jipeng Zhang, Wenxuan Wang, Haiqin Zhong, Xiaoling Luo, Wenting Chen, Linlin Shen,
- Abstract要約: 医療ビジョンランゲージモデルでは、現実世界のシナリオで必要とされる複雑な臨床推論を伴う知覚タスクが優れている。
本稿ではドメイン固有の適応とガイドライン強化を通じてこれらの課題に対処する新しい推論MedVLMを提案する。
- 参考スコア(独自算出の注目度): 63.82954136824963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical Vision-Language Models (MedVLMs) excel at perception tasks but struggle with complex clinical reasoning required in real-world scenarios. While reinforcement learning (RL) has been explored to enhance reasoning capabilities, existing approaches face critical mismatches: the scarcity of deep reasoning data, cold-start limits multi-specialty alignment, and standard RL algorithms fail to model clinical reasoning diversity. We propose MMedExpert-R1, a novel reasoning MedVLM that addresses these challenges through domain-specific adaptation and clinical guideline reinforcement. We construct MMedExpert, a high-quality dataset of 10K samples across four specialties with step-by-step reasoning traces. Our Domain-Specific Adaptation (DSA) creates specialty-specific LoRA modules to provide diverse initialization, while Guideline-Based Advantages (GBA) explicitly models different clinical reasoning perspectives to align with real-world diagnostic strategies. Conflict-Aware Capability Integration then merges these specialized experts into a unified agent, ensuring robust multi-specialty alignment. Comprehensive experiments demonstrate state-of-the-art performance, with our 7B model achieving 27.50 on MedXpert-MM and 83.03 on OmniMedVQA, establishing a robust foundation for reliable multimodal medical reasoning systems.
- Abstract(参考訳): MedVLM(Med Vision-Language Models)は、知覚タスクに優れるが、現実のシナリオで必要とされる複雑な臨床推論に苦しむ。
推論能力を高めるために強化学習(RL)が研究されているが、既存のアプローチでは、深い推論データの不足、コールドスタート制限によるマルチスペシャリティアライメント、そして標準的なRLアルゴリズムは臨床推論の多様性をモデル化できないという重大なミスマッチに直面している。
MedVLMはドメイン固有の適応と臨床ガイドラインの強化を通じてこれらの課題に対処する新しい推論手法である。
MMedExpertは、4つの専門分野にまたがる10Kサンプルの高品質なデータセットであり、ステップバイステップの推論トレースである。
我々のDomain-Specific Adaptation (DSA)は、様々な初期化を提供するために特殊なLoRAモジュールを作成し、ガイドラインベースのAdvantages (GBA)は、現実世界の診断戦略に合わせて異なる臨床推論の視点を明示的にモデル化する。
競合意識能力統合(Conflict-Aware Capability Integration)は、これらの専門家を統一されたエージェントにマージし、堅牢なマルチスペシャリティアライメントを保証する。
OmniMedVQAのMedXpert-MMで27.50、OmniMedVQAで83.03を達成し、信頼性の高いマルチモーダル医療推論システムのための堅牢な基盤を確立した。
関連論文リスト
- MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。
まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。
次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2025-10-24T02:11:05Z) - RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。
RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文 参考訳(メタデータ) (2025-09-24T10:36:14Z) - Bridging the Gap in Ophthalmic AI: MM-Retinal-Reason Dataset and OphthaReason Model toward Dynamic Multimodal Reasoning [15.73558614478585]
本稿では,眼科用マルチモーダルデータセットMM-Retinal-Reasonについて紹介する。
MM-Retinal-Reasonに基づいて,第1の眼科特異的多モード推論モデルであるOphthaReasonを提案する。
本モデルは,基礎的および複雑な推論タスクにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-08-22T06:47:30Z) - Multimodal Causal-Driven Representation Learning for Generalizable Medical Image Segmentation [56.52520416420957]
医用画像セグメンテーションにおける領域一般化に取り組むために, MCDRL(Multimodal Causal-Driven Representation Learning)を提案する。
MCDRLは競合する手法より一貫して優れ、セグメンテーション精度が優れ、堅牢な一般化性を示す。
論文 参考訳(メタデータ) (2025-08-07T03:41:41Z) - MMedAgent-RL: Optimizing Multi-Agent Collaboration for Multimodal Medical Reasoning [63.63542462400175]
医療エージェント間の動的に最適化された協調を可能にする強化学習に基づくマルチエージェントフレームワークMMedAgent-RLを提案する。
具体的には、Qwen2.5-VLに基づく2つのGPエージェントをRLを介して訓練する: トリアージ医師は患者を適切な専門分野に割り当てることを学ぶ一方、主治医はマルチスペシャリストの判断を統合する。
5つのVQAベンチマークの実験では、MMedAgent-RLはオープンソースおよびプロプライエタリなMed-LVLMよりも優れており、人間のような推論パターンも示している。
論文 参考訳(メタデータ) (2025-05-31T13:22:55Z) - EndoBench: A Comprehensive Evaluation of Multi-Modal Large Language Models for Endoscopy Analysis [62.00431604976949]
EndoBenchは、内視鏡的プラクティスの全スペクトルにわたるMLLMを評価するために特別に設計された最初の包括的なベンチマークである。
我々は、汎用、医療特化、プロプライエタリMLLMを含む23の最先端モデルをベンチマークする。
私たちの実験では、プロプライエタリなMLLMは、オープンソースや医療専門のモデルよりも優れていますが、それでも人間の専門家を追い越しています。
論文 参考訳(メタデータ) (2025-05-29T16:14:34Z) - Mixture of Multicenter Experts in Multimodal AI for Debiased Radiotherapy Target Delineation [40.85439754751206]
本稿では,医療分野におけるAIバイアスに対処するために,機関間のデータ共有を必要とせず,マルチセンターエキスパートの混在(Mixture of Multicenter Experts, MoME)フレームワークを提案する。
MoMEは、様々な臨床戦略から専門的な専門知識を統合し、医療センター全体のモデル一般化可能性と適応性を高める。
論文 参考訳(メタデータ) (2024-09-27T19:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。