論文の概要: MaskedCLIP: Bridging the Masked and CLIP Space for Semi-Supervised Medical Vision-Language Pre-training
- arxiv url: http://arxiv.org/abs/2507.17239v1
- Date: Wed, 23 Jul 2025 06:15:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.876537
- Title: MaskedCLIP: Bridging the Masked and CLIP Space for Semi-Supervised Medical Vision-Language Pre-training
- Title(参考訳): MaskedCLIP:半監督型医療ビジョン学習のためのMaskedとCLIPスペースのブリッジ
- Authors: Lei Zhu, Jun Zhou, Rick Siow Mong Goh, Yong Liu,
- Abstract要約: State-of-the-artメソッドは、視覚言語による事前学習によるペア画像テキストデータと、自己教師付き事前学習による未ペア画像データの両方を活用して基礎モデルを学ぶ。
そこで我々は,相乗的マスク付き画像モデリングとコントラスト言語画像事前学習フレームワークMaskedCLIPを提案する。
- 参考スコア(独自算出の注目度): 27.35164449801058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models have recently gained tremendous popularity in medical image analysis. State-of-the-art methods leverage either paired image-text data via vision-language pre-training or unpaired image data via self-supervised pre-training to learn foundation models with generalizable image features to boost downstream task performance. However, learning foundation models exclusively on either paired or unpaired image data limits their ability to learn richer and more comprehensive image features. In this paper, we investigate a novel task termed semi-supervised vision-language pre-training, aiming to fully harness the potential of both paired and unpaired image data for foundation model learning. To this end, we propose MaskedCLIP, a synergistic masked image modeling and contrastive language-image pre-training framework for semi-supervised vision-language pre-training. The key challenge in combining paired and unpaired image data for learning a foundation model lies in the incompatible feature spaces derived from these two types of data. To address this issue, we propose to connect the masked feature space with the CLIP feature space with a bridge transformer. In this way, the more semantic specific CLIP features can benefit from the more general masked features for semantic feature extraction. We further propose a masked knowledge distillation loss to distill semantic knowledge of original image features in CLIP feature space back to the predicted masked image features in masked feature space. With this mutually interactive design, our framework effectively leverages both paired and unpaired image data to learn more generalizable image features for downstream tasks. Extensive experiments on retinal image analysis demonstrate the effectiveness and data efficiency of our method.
- Abstract(参考訳): ファウンデーションモデルは最近、医療画像解析において大きな人気を集めている。
State-of-the-artメソッドは、視覚言語による事前学習によるペア画像テキストデータ、あるいは自己教師付き事前学習による未ペア画像データを利用して、一般化可能な画像特徴を持つ基礎モデルを学習し、下流タスクのパフォーマンスを向上する。
しかし、ペア画像データまたはペア画像データにのみ基づく基礎学習モデルは、よりリッチで包括的な画像特徴を学習する能力を制限する。
本稿では、基礎モデル学習のためのペア画像とアンペア画像の両方の可能性を完全に活用することを目的として、半教師付き視覚言語事前学習と呼ばれる新しいタスクについて検討する。
そこで我々は,半教師付き視覚言語事前学習のための,相乗的マスク付き画像モデリングとコントラスト型言語画像事前学習フレームワークMaskedCLIPを提案する。
基礎モデル学習のためのペア画像データとペア画像データを組み合わせる上で重要な課題は、これらの2種類のデータから派生した非互換な特徴空間にある。
この問題に対処するために,マスク付き特徴空間とCLIP特徴空間をブリッジトランスで接続することを提案する。
このようにして、よりセマンティックなCLIP機能は、セマンティックな特徴抽出のためのより一般的なマスク付きフィーチャの恩恵を受けることができる。
さらに,CLIP特徴空間における原画像の特徴のセマンティック知識を,マスク特徴空間における予測されたマスク画像特徴に戻すために,マスク付き知識蒸留損失を提案する。
この相互インタラクティブな設計により、我々のフレームワークは、ペア画像データとペア画像データの両方を効果的に活用し、下流タスクのより一般化可能な画像特徴を学習する。
網膜画像解析における広範囲な実験により,本手法の有効性とデータ効率が示された。
関連論文リスト
- CLIP-IT: CLIP-based Pairing for Histology Images Classification [6.855390956571216]
視覚バックボーンモデルのトレーニングにCLIP-ITを導入し、外部ソースからの特権的なテキスト情報と組み合わせることで、組織像を分類する。
当初、モダリティペアリングのステップは、CLIPベースのモデルを使用して、組織像と外部ソースからの意味的に関連するテキストレポートデータとをマッチングし、拡張されたマルチモーダルデータセットを作成する。
パラメータ効率のよい微調整法を用いて、主(画像)と対(テキスト)のモダリティのミスアライメントを効率的に解決する。
論文 参考訳(メタデータ) (2025-04-22T18:14:43Z) - Evolved Hierarchical Masking for Self-Supervised Learning [49.77271430882176]
既存のマスケ画像モデリング手法では、固定マスクパターンを適用して自己指導型トレーニングを指導する。
本稿では,自己教師型学習における一般的な視覚的手がかりモデリングを追求する階層型マスキング手法を提案する。
論文 参考訳(メタデータ) (2025-04-12T09:40:14Z) - MMCLIP: Cross-modal Attention Masked Modelling for Medical Language-Image Pre-Training [29.02600107837688]
本稿では,MMCLIP(Masked Medical Contrastive Language- Image Pre-Training)フレームワークを提案する。
まず、注意マッピング画像モデリング(AttMIM)とエンティティ駆動マスキング言語モデリングモジュール(EntMLM)を紹介する。
第2に、MMCLIPは、病原性プロンプトを導入してマルチモーダル学習を強化するために、不適切なデータを大まかに活用する。
論文 参考訳(メタデータ) (2024-07-28T17:38:21Z) - Vision Model Pre-training on Interleaved Image-Text Data via Latent Compression Learning [78.19528555505961]
本稿では,LCL(Latent Compression Learning)と呼ばれる視覚モデル事前学習手法を提案する。
学習対象は,1)視覚表現と先行文脈の対比学習,2)視覚表現に基づく後続テキストの生成という2つの基本課題に分解することができる。
実験により,本手法は,ペア付き事前学習データセット上でのCLIPの性能に適合するだけでなく,インターリーブ付き事前学習データの活用も可能であることが示された。
論文 参考訳(メタデータ) (2024-06-11T17:59:35Z) - Composed Image Retrieval using Contrastive Learning and Task-oriented
CLIP-based Features [32.138956674478116]
参照画像と相対キャプションからなるクエリが与えられた場合、Composeed Image Retrievalの目的は、参照画像と視覚的に類似した画像を取得することである。
検討されたタスクに対処するために、OpenAI CLIPモデルの機能を使用します。
我々は、バイモーダル情報を統合することで、画像テキスト機能を組み合わせることを学ぶコンビネータネットワークを訓練する。
論文 参考訳(メタデータ) (2023-08-22T15:03:16Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image
Pretraining [138.86293836634323]
MaskCLIPは、新たに提案されたマスク付き自己蒸留をコントラスト言語イメージ事前学習に組み込む。
MaskCLIPは、言語エンコーダの誘導により、線形探索、微調整、ゼロショット性能において優れた結果が得られる。
論文 参考訳(メタデータ) (2022-08-25T17:59:58Z) - The Devil is in the Frequency: Geminated Gestalt Autoencoder for
Self-Supervised Visual Pre-Training [13.087987450384036]
視覚前訓練のための新しいMasked Image Modeling (MIM) をGeminated Autoencoder (Ge$2-AE) と呼ぶ。
具体的には、画素と周波数空間の両方から画像内容を再構成するgeminated decoderをモデルに装備する。
論文 参考訳(メタデータ) (2022-04-18T09:22:55Z) - Intelligent Masking: Deep Q-Learning for Context Encoding in Medical
Image Analysis [48.02011627390706]
我々は,対象地域を排除し,事前訓練の手順を改善する,新たな自己指導型アプローチを開発した。
予測モデルに対してエージェントを訓練することで、下流の分類タスクで抽出した意味的特徴を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-03-25T19:05:06Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。