論文の概要: Med-GLIP: Advancing Medical Language-Image Pre-training with Large-scale Grounded Dataset
- arxiv url: http://arxiv.org/abs/2508.10528v1
- Date: Thu, 14 Aug 2025 11:02:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.279339
- Title: Med-GLIP: Advancing Medical Language-Image Pre-training with Large-scale Grounded Dataset
- Title(参考訳): Med-GLIP:大規模グラウンドデータセットによる医用言語画像事前学習の促進
- Authors: Ziye Deng, Ruihan He, Jiaxiang Liu, Yuan Wang, Zijie Meng, Songtao Jiang, Yong Xie, Zuozhu Liu,
- Abstract要約: Med-GLIPは、Med-GLIP-5Mでトレーニングされたモダリティ対応の基盤フレームワークである。
多様なトレーニングデータから階層的意味理解を暗黙的に取得する。
複数のグラウンドベンチマークで、最先端のベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 15.166441482766684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical image grounding aims to align natural language phrases with specific regions in medical images, serving as a foundational task for intelligent diagnosis, visual question answering (VQA), and automated report generation (MRG). However, existing research is constrained by limited modality coverage, coarse-grained annotations, and the absence of a unified, generalizable grounding framework. To address these challenges, we construct a large-scale medical grounding dataset Med-GLIP-5M comprising over 5.3 million region-level annotations across seven imaging modalities, covering diverse anatomical structures and pathological findings. The dataset supports both segmentation and grounding tasks with hierarchical region labels, ranging from organ-level boundaries to fine-grained lesions. Based on this foundation, we propose Med-GLIP, a modality-aware grounding framework trained on Med-GLIP-5M. Rather than relying on explicitly designed expert modules, Med-GLIP implicitly acquires hierarchical semantic understanding from diverse training data -- enabling it to recognize multi-granularity structures, such as distinguishing lungs from pneumonia lesions. Extensive experiments demonstrate that Med-GLIP consistently outperforms state-of-the-art baselines across multiple grounding benchmarks. Furthermore, integrating its spatial outputs into downstream tasks, including medical VQA and report generation, leads to substantial performance gains. Our dataset will be released soon.
- Abstract(参考訳): 医用画像グラウンドディングは、医学画像の特定の領域に自然言語句を合わせることを目的としており、知的診断、視覚的質問応答(VQA)、自動報告生成(MRG)の基本的なタスクとして機能している。
しかし、既存の研究は、限定的なモダリティカバレッジ、粗い粒度のアノテーション、統一的で一般化可能な基盤フレームワークの欠如によって制約されている。
これらの課題に対処するため、我々は7つの画像モダリティにまたがる530万以上の領域レベルのアノテーションを含む大規模医療基盤データセットMed-GLIP-5Mを構築し、多様な解剖学的構造と病理所見を網羅した。
データセットは、臓器レベルの境界からきめ細かい病変まで、階層的な領域ラベルによるセグメント化と接地タスクの両方をサポートしている。
本研究は,Med-GLIP-5Mをベースとしたモダリティ対応基盤フレームワークであるMed-GLIPを提案する。
明示的に設計された専門家モジュールに頼るのではなく、Med-GLIPは、さまざまなトレーニングデータから階層的なセマンティック理解を暗黙的に取得する。
大規模な実験により、Med-GLIPは複数のグラウンドベンチマークで常に最先端のベースラインを上回っていることが示された。
さらに、その空間出力を医療用VQAやレポート生成などの下流タスクに統合することで、大幅な性能向上につながる。
私たちのデータセットはまもなくリリースされます。
関連論文リスト
- MedGemma Technical Report [75.88152277443179]
MedGemmaは、Gemma 3 4Bと27Bをベースとした医療ビジョン言語基盤モデルの集合体である。
MedGemmaは、画像とテキストの高度な医学的理解と推論を実証する。
また、SigLIPから派生した医用目視エンコーダであるMedSigLIPを紹介する。
論文 参考訳(メタデータ) (2025-07-07T17:01:44Z) - MedBridge: Bridging Foundation Vision-Language Models to Medical Image Diagnosis [10.082738539201804]
最近の視覚言語基盤モデルは、自然画像分類の最先端結果を提供するが、ドメインシフトによる医用画像に干渉する。
MedBridgeは,医用画像の正確な診断のためにトレーニング済みのVLMを再利用した,軽量なマルチモーダル適応フレームワークである。
MedBridgeはマルチラベル胸部疾患の診断において最先端のVLM適応法と比較して6~15%改善した。
論文 参考訳(メタデータ) (2025-05-27T19:37:51Z) - PRS-Med: Position Reasoning Segmentation with Vision-Language Model in Medical Imaging [6.411386758550256]
PRS-Medは、視覚言語モデルとセグメンテーション機能を統合し、正確なセグメンテーションマスクとそれに対応する空間推論出力の両方を生成するフレームワークである。
MMRSデータセットは、医療画像における位置推論データの欠如に対処するために、多様な空間的な質問応答ペアを提供する。
論文 参考訳(メタデータ) (2025-05-17T06:42:28Z) - Describe Anything in Medical Images [32.785523415007]
医用画像の領域別キャプションに大規模視覚言語モデルを活用する,初の包括的フレームワークであるMedDAMを提案する。
MedDAMは特定の画像モダリティに合わせて医療専門家が設計したプロンプトを採用し、堅牢な評価ベンチマークを確立する。
本ベンチマークは,属性レベル検証タスクによる臨床事実性に着目し,MedDAMと他の大規模視覚言語モデルの両方を評価する。
論文 参考訳(メタデータ) (2025-05-09T05:45:31Z) - UniMed-CLIP: Towards a Unified Image-Text Pretraining Paradigm for Diverse Medical Imaging Modalities [68.12889379702824]
対照的な学習によって訓練された視覚言語モデル(VLM)は、自然画像タスクにおいて顕著な成功を収めた。
UniMedは530万以上の画像テキストペアからなる、大規模でオープンソースのマルチモーダル医療データセットである。
我々は、6つのモダリティのための統一VLMであるUniMed-CLIPを訓練し、ゼロショット評価において顕著な利益を得た。
論文 参考訳(メタデータ) (2024-12-13T18:59:40Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Cross-Modal Causal Intervention for Medical Report Generation [107.76649943399168]
放射線医学報告生成(RRG)は, コンピュータ支援診断と薬剤指導に不可欠である。
視覚言語的バイアスによる急激な相関により、正確な病変記述の生成は依然として困難である。
我々はCrossModal Causal Representation Learning (CMCRL)という2段階のフレームワークを提案する。
IU-XrayとMIMIC-CXRの実験により、我々のCMCRLパイプラインは最先端の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。