論文の概要: M3Ret: Unleashing Zero-shot Multimodal Medical Image Retrieval via Self-Supervision
- arxiv url: http://arxiv.org/abs/2509.01360v1
- Date: Mon, 01 Sep 2025 10:59:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.654058
- Title: M3Ret: Unleashing Zero-shot Multimodal Medical Image Retrieval via Self-Supervision
- Title(参考訳): M3Ret:セルフスーパービジョンによるゼロショットマルチモーダル画像検索
- Authors: Che Liu, Zheng Jiang, Chengyu Fang, Heng Guo, Yan-Jie Zhou, Jiaqi Qu, Le Lu, Minfeng Xu,
- Abstract要約: 我々は、モダリティ固有のカスタマイズなしで、統一されたビジュアルエンコーダであるM3Retを訓練する。
生成的(MAE)およびコントラスト的(SimDINO)自己教師型学習(SSL)パラダイムを用いて、転送可能な表現をうまく学習する。
提案手法は,DINOv3 やテキスト教師付き BMC-CLIP などの強力なベースラインを超越して,すべてのモダリティを横断するゼロショット画像画像検索において,新たな最先端技術を実現する。
- 参考スコア(独自算出の注目度): 24.846428105192405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical image retrieval is essential for clinical decision-making and translational research, relying on discriminative visual representations. Yet, current methods remain fragmented, relying on separate architectures and training strategies for 2D, 3D, and video-based medical data. This modality-specific design hampers scalability and inhibits the development of unified representations. To enable unified learning, we curate a large-scale hybrid-modality dataset comprising 867,653 medical imaging samples, including 2D X-rays and ultrasounds, RGB endoscopy videos, and 3D CT scans. Leveraging this dataset, we train M3Ret, a unified visual encoder without any modality-specific customization. It successfully learns transferable representations using both generative (MAE) and contrastive (SimDINO) self-supervised learning (SSL) paradigms. Our approach sets a new state-of-the-art in zero-shot image-to-image retrieval across all individual modalities, surpassing strong baselines such as DINOv3 and the text-supervised BMC-CLIP. More remarkably, strong cross-modal alignment emerges without paired data, and the model generalizes to unseen MRI tasks, despite never observing MRI during pretraining, demonstrating the generalizability of purely visual self-supervision to unseen modalities. Comprehensive analyses further validate the scalability of our framework across model and data sizes. These findings deliver a promising signal to the medical imaging community, positioning M3Ret as a step toward foundation models for visual SSL in multimodal medical image understanding.
- Abstract(参考訳): 医用画像の検索は、識別的視覚的表現に依存する臨床意思決定と翻訳研究に不可欠である。
しかし、現在の方法は断片化され続けており、2D、3D、ビデオベースの医療データのための別々のアーキテクチャとトレーニング戦略に依存している。
このモダリティ固有の設計はスケーラビリティを損ね、統一表現の開発を阻害する。
統合学習を実現するため,2次元X線および超音波,RGB内視鏡ビデオ,3次元CTスキャンを含む867,653個の医用画像サンプルからなる大規模ハイブリッドモダリティデータセットをキュレートした。
このデータセットを活用して、モダリティ固有のカスタマイズなしで統一されたビジュアルエンコーダであるM3Retをトレーニングします。
生成的(MAE)およびコントラスト的(SimDINO)自己教師型学習(SSL)パラダイムを用いて、転送可能な表現をうまく学習する。
提案手法は,DINOv3 やテキスト教師付き BMC-CLIP などの強力なベースラインを超越して,すべてのモダリティを横断するゼロショット画像画像検索において,新たな最先端技術を実現する。
より顕著に、強いクロスモーダルアライメントはペアデータなしで出現し、モデルは事前トレーニング中にMRIを観察しなかったにもかかわらず、見えないMRIタスクに一般化し、純粋に視覚的な自己スーパービジョンのモダリティへの一般化性を実証する。
包括的分析は、モデルとデータサイズをまたいだフレームワークのスケーラビリティをさらに検証します。
これらの知見は、M3Retをマルチモーダル画像理解における視覚的SSLの基礎モデルに向けたステップとして位置づけ、医療画像コミュニティに有望なシグナルを与える。
関連論文リスト
- Unified 3D MRI Representations via Sequence-Invariant Contrastive Learning [0.15749416770494706]
自己教師型深層学習は2次元の自然画像解析を加速させたが、3次元MRIへの変換は困難である。
定量的MRI(qMRI)を利用したemph-sequence-invariant self-supervised frameworkを提案する。
健常脳セグメンテーション(IXI)、脳梗塞セグメンテーション(ARC)、MRIによるデノイング実験は、ベースラインSSLアプローチよりも有意な増加を示した。
論文 参考訳(メタデータ) (2025-01-21T11:27:54Z) - MRGen: Segmentation Data Engine for Underrepresented MRI Modalities [59.61465292965639]
稀ながら臨床的に重要な画像モダリティのための医用画像分割モデルの訓練は、注釈付きデータの不足により困難である。
本稿では,データ合成における生成モデルの利用について検討する。
本稿では,テキストプロンプトとセグメンテーションマスクを条件とした医用画像合成のためのデータエンジンMRGenを提案する。
論文 参考訳(メタデータ) (2024-12-04T16:34:22Z) - Autoregressive Sequence Modeling for 3D Medical Image Representation [48.706230961589924]
本稿では, 自己回帰シーケンス事前学習フレームワークを用いて, 3次元医用画像表現を学習するための先駆的手法を提案する。
我々は,空間的,コントラスト的,意味的相関に基づく様々な3次元医用画像にアプローチし,トークンシーケンス内の相互接続された視覚トークンとして扱う。
論文 参考訳(メタデータ) (2024-09-13T10:19:10Z) - Learning Brain Tumor Representation in 3D High-Resolution MR Images via Interpretable State Space Models [42.55786269051626]
本稿では,高解像度データを効率的に処理するために,ViTライクなモデルを拡張した新しい状態空間モデル (SSM) ベースのマスク付きオートエンコーダを提案する。
本稿では,入力ボリューム内の特定の領域に対応する潜時特徴の直接可視化を可能にする潜時空間マッピング手法を提案する。
本結果は,SSMに基づく自己教師型学習が,効率と解釈可能性を組み合わせた放射能解析を変換する可能性を強調した。
論文 参考訳(メタデータ) (2024-09-12T04:36:50Z) - Building Universal Foundation Models for Medical Image Analysis with
Spatially Adaptive Networks [5.661631789478932]
医用画像解析のための普遍的基礎モデルを提案する。
55の公開医用画像データセット上のマスク画像モデリング(MIM)を用いて、空間適応型視覚トークンーザ(SPAD-VT)と空間適応型視覚変換器(SPAD-ViT)を事前訓練する。
下流の医用画像分類とセグメンテーションタスクの実験結果から,本モデルの性能とラベルの効率が向上したことを示す。
論文 参考訳(メタデータ) (2023-12-12T08:33:45Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。