論文の概要: MedBridge: Bridging Foundation Vision-Language Models to Medical Image Diagnosis
- arxiv url: http://arxiv.org/abs/2505.21698v1
- Date: Tue, 27 May 2025 19:37:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.253188
- Title: MedBridge: Bridging Foundation Vision-Language Models to Medical Image Diagnosis
- Title(参考訳): MedBridge:医療画像診断のためのブリッジ財団ビジョンランゲージモデル
- Authors: Yitong Li, Morteza Ghahremani, Christian Wachinger,
- Abstract要約: 最近の視覚言語基盤モデルは、自然画像分類の最先端結果を提供するが、ドメインシフトによる医用画像に干渉する。
MedBridgeは,医用画像の正確な診断のためにトレーニング済みのVLMを再利用した,軽量なマルチモーダル適応フレームワークである。
MedBridgeはマルチラベル胸部疾患の診断において最先端のVLM適応法と比較して6~15%改善した。
- 参考スコア(独自算出の注目度): 10.082738539201804
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent vision-language foundation models deliver state-of-the-art results on natural image classification but falter on medical images due to pronounced domain shifts. At the same time, training a medical foundation model requires substantial resources, including extensive annotated data and high computational capacity. To bridge this gap with minimal overhead, we introduce MedBridge, a lightweight multimodal adaptation framework that re-purposes pretrained VLMs for accurate medical image diagnosis. MedBridge comprises three key components. First, a Focal Sampling module that extracts high-resolution local regions to capture subtle pathological features and compensate for the limited input resolution of general-purpose VLMs. Second, a Query Encoder (QEncoder) injects a small set of learnable queries that attend to the frozen feature maps of VLM, aligning them with medical semantics without retraining the entire backbone. Third, a Mixture of Experts mechanism, driven by learnable queries, harnesses the complementary strength of diverse VLMs to maximize diagnostic performance. We evaluate MedBridge on five medical imaging benchmarks across three key adaptation tasks, demonstrating its superior performance in both cross-domain and in-domain adaptation settings, even under varying levels of training data availability. Notably, MedBridge achieved over 6-15% improvement in AUC compared to state-of-the-art VLM adaptation methods in multi-label thoracic disease diagnosis, underscoring its effectiveness in leveraging foundation models for accurate and data-efficient medical diagnosis. Our code is available at https://github.com/ai-med/MedBridge.
- Abstract(参考訳): 近年の視覚言語基盤モデルは、自然画像分類の最先端結果を提供するが、ドメインシフトの顕著さにより、医療画像に干渉する。
同時に、医療基盤モデルのトレーニングには、大量の注釈付きデータや高い計算能力を含む、かなりのリソースが必要である。
このギャップを最小限のオーバーヘッドで埋めるために、医用画像の正確な診断のためにVLMの事前訓練を再利用する軽量なマルチモーダル適応フレームワークであるMedBridgeを導入する。
MedBridgeは3つのキーコンポーネントから構成される。
まず、高分解能局所領域を抽出して微妙な病理特徴を捉え、汎用VLMの限られた入力解像度を補償するFocal Smplingモジュール。
第2に、クエリエンコーダ(QEncoder)は、VLMの凍結した特徴マップに付随する、学習可能なクエリの小さなセットを注入する。
第3に、学習可能なクエリによって駆動されるMixture of Expertsメカニズムは、さまざまなVLMの相補的な強度を利用して診断性能を最大化する。
我々は、MedBridgeを3つの主要な適応タスクにわたる5つの医用画像ベンチマークで評価し、異なるレベルのトレーニングデータであっても、クロスドメインおよびインドメイン適応設定において優れた性能を示す。
特に、MedBridgeは、マルチラベル胸部疾患の診断における最先端のVLM適応法と比較して、AUCの6~15%以上の改善を達成し、基礎モデルを正確かつデータ効率のよい診断に活用する効果を実証した。
私たちのコードはhttps://github.com/ai-med/MedBridge.comで利用可能です。
関連論文リスト
- Describe Anything in Medical Images [32.785523415007]
医用画像の領域別キャプションに大規模視覚言語モデルを活用する,初の包括的フレームワークであるMedDAMを提案する。
MedDAMは特定の画像モダリティに合わせて医療専門家が設計したプロンプトを採用し、堅牢な評価ベンチマークを確立する。
本ベンチマークは,属性レベル検証タスクによる臨床事実性に着目し,MedDAMと他の大規模視覚言語モデルの両方を評価する。
論文 参考訳(メタデータ) (2025-05-09T05:45:31Z) - UniMed-CLIP: Towards a Unified Image-Text Pretraining Paradigm for Diverse Medical Imaging Modalities [68.12889379702824]
対照的な学習によって訓練された視覚言語モデル(VLM)は、自然画像タスクにおいて顕著な成功を収めた。
UniMedは530万以上の画像テキストペアからなる、大規模でオープンソースのマルチモーダル医療データセットである。
我々は、6つのモダリティのための統一VLMであるUniMed-CLIPを訓練し、ゼロショット評価において顕著な利益を得た。
論文 参考訳(メタデータ) (2024-12-13T18:59:40Z) - MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.765466293296186]
近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。
Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。
我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
論文 参考訳(メタデータ) (2024-10-16T23:03:27Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。