論文の概要: MedMO: Grounding and Understanding Multimodal Large Language Model for Medical Images
- arxiv url: http://arxiv.org/abs/2602.06965v1
- Date: Fri, 06 Feb 2026 18:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.546537
- Title: MedMO: Grounding and Understanding Multimodal Large Language Model for Medical Images
- Title(参考訳): MedMO:医療画像のためのマルチモーダル大言語モデルの構築と理解
- Authors: Ankan Deria, Komal Kumar, Adinath Madhavrao Dukre, Eran Segal, Salman Khan, Imran Razzak,
- Abstract要約: 一般化MLLMアーキテクチャ上に構築された医療基盤モデルであるMedMOを紹介する。
VQAベンチマークでは、MedMOはベースラインよりも平均精度が+13.7%向上した。
医療報告生成において、MedMOは意味的および臨床的正確性の両方において大きな利益をもたらす。
- 参考スコア(独自算出の注目度): 25.29568841502814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) have rapidly advanced, yet their adoption in medicine remains limited by gaps in domain coverage, modality alignment, and grounded reasoning. In this work, we introduce MedMO, a medical foundation model built upon a generalized MLLM architecture and trained exclusively on large-scale, domain-specific data. MedMO follows a multi-stage training recipe: (i) cross-modal pretraining to align heterogeneous visual encoders with a medical language backbone; (ii) instruction tuning on multi-task supervision that spans captioning, VQA, report generation, retrieval, and grounded disease localization with bounding boxes; and (iii) reinforcement learning with verifiable rewards that combine factuality checks with a box-level GIoU reward to strengthen spatial grounding and step-by-step reasoning in complex clinical scenarios. MedMO consistently outperforms strong open-source medical MLLMs across multiple modalities and tasks. On VQA benchmarks, MedMO achieves an average accuracy improvement of +13.7% over the baseline and performs within 1.9% of the SOTA Fleming-VL. For text-based QA, it attains +6.9% over the baseline and +14.5% over Fleming-VL. In medical report generation, MedMO delivers significant gains in both semantic and clinical accuracy. Moreover, it exhibits strong grounding capability, achieving an IoU improvement of +40.4 over the baseline and +37.0% over Fleming-VL, underscoring its robust spatial reasoning and localization performance. Evaluations across radiology, ophthalmology, and pathology-microscopy confirm MedMO's broad cross-modality generalization. We release two versions of MedMO: 4B and 8B. Project is available at https://genmilab.github.io/MedMO-Page
- Abstract(参考訳): MLLM(Multimodal large language model)は急速に進歩しているが、その医学への採用は、ドメインカバレッジのギャップ、モダリティアライメント、基礎的推論によって制限されている。
本稿では,MLLMアーキテクチャ上に構築された医療基盤モデルであるMedMOを紹介する。
MedMOは、マルチステージのトレーニングレシピに従います。
一 異種視覚エンコーダを医療用言語のバックボーンと整合させるためのクロスモーダル事前訓練
二 キャプション、VQA、レポート生成、検索、接地した病気の特定を境界箱で行うマルチタスク監視の指導指導
三 複雑な臨床シナリオにおいて、虚偽チェックとGIoU報酬を併用し、空間的接地とステップバイステップの推論を強化することによる、検証可能な報酬による強化学習。
MedMOは、複数のモダリティやタスクにわたって、強力なオープンソース医療MLLMを一貫して上回ります。
VQAベンチマークでは、MedMOはベースラインよりも平均精度が+13.7%向上し、SOTAフレミングVLの1.9%以内で動作している。
テキストベースのQAでは、ベースラインで+6.9%、Fleming-VLで+14.5%に達する。
医療報告生成において、MedMOは意味的および臨床的正確性の両方において大きな利益をもたらす。
さらに、ベースライン上でのIoUの+40.4とフレミングVL上での+37.0%を達成し、その堅牢な空間推論とローカライゼーション性能を裏付ける強い接地能力を示す。
放射線学,眼科,病理解剖学における評価は,MedMOの多種多様性一般化を裏付けるものである。
MedMOの2つのバージョン(4Bと8B)をリリースします。
Projectはhttps://genmilab.github.io/MedMO-Pageで利用可能である。
関連論文リスト
- MedGemma Technical Report [75.88152277443179]
MedGemmaは、Gemma 3 4Bと27Bをベースとした医療ビジョン言語基盤モデルの集合体である。
MedGemmaは、画像とテキストの高度な医学的理解と推論を実証する。
また、SigLIPから派生した医用目視エンコーダであるMedSigLIPを紹介する。
論文 参考訳(メタデータ) (2025-07-07T17:01:44Z) - Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。
次に医学専門のMLLMであるLingshuを紹介します。
Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文 参考訳(メタデータ) (2025-06-08T08:47:30Z) - QoQ-Med: Building Multimodal Clinical Foundation Models with Domain-Aware GRPO Training [29.553607098450698]
QoQ-Medは、医療画像、時系列信号、およびテキストレポートを共同で原因付ける、最初のオープン・ジェネラリスト臨床基礎モデルである。
DRPOトレーニングは,すべての視覚領域において,マクロF1の診断性能を平均43%向上させることを示した。
QoQ-Medは集中的なセグメンテーションデータに基づいてトレーニングされており、オープンモデルよりもIoU 10倍高い、診断に関連する健全な領域をハイライトすることができる。
論文 参考訳(メタデータ) (2025-05-31T21:02:52Z) - InfiMed: Low-Resource Medical MLLMs with Advancing Understanding and Reasoning [19.791150694039466]
InfiMed-SFT-3B と InfiMed-RL-3B は7つのマルチモーダル医療ベンチマークで最先端のパフォーマンスを実現する。
InfiMed-RL-3Bの平均精度は59.2%であり、InternVL3-8Bのような大型モデルよりも57.3%高い。
論文 参考訳(メタデータ) (2025-05-29T10:31:57Z) - MedBridge: Bridging Foundation Vision-Language Models to Medical Image Diagnosis [10.082738539201804]
最近の視覚言語基盤モデルは、自然画像分類の最先端結果を提供するが、ドメインシフトによる医用画像に干渉する。
MedBridgeは,医用画像の正確な診断のためにトレーニング済みのVLMを再利用した,軽量なマルチモーダル適応フレームワークである。
MedBridgeはマルチラベル胸部疾患の診断において最先端のVLM適応法と比較して6~15%改善した。
論文 参考訳(メタデータ) (2025-05-27T19:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。