論文の概要: MedCLIP: Contrastive Learning from Unpaired Medical Images and Text
- arxiv url: http://arxiv.org/abs/2210.10163v1
- Date: Tue, 18 Oct 2022 21:06:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 13:00:44.377529
- Title: MedCLIP: Contrastive Learning from Unpaired Medical Images and Text
- Title(参考訳): MedCLIP: 障害のない医療画像とテキストからのコントラスト学習
- Authors: Zifeng Wang, Zhenbang Wu, Dinesh Agarwal, Jimeng Sun
- Abstract要約: CLIPのような既存の視覚テキストのコントラスト学習は、他を押し離しながら、ペアイメージとキャプションの埋め込みをマッチングすることを目的としている。
マルチモーダルコントラスト学習のために画像とテキストを分離することにより、使用可能なトレーニングデータを低コストでスケールアップする。
MedCLIPは, ゼロショット予測, 教師付き分類, 画像テキスト検索において, 最先端の手法より優れていることが証明された。
- 参考スコア(独自算出の注目度): 32.280193301812645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing vision-text contrastive learning like CLIP aims to match the paired
image and caption embeddings while pushing others apart, which improves
representation transferability and supports zero-shot prediction. However,
medical image-text datasets are orders of magnitude below the general images
and captions from the internet. Moreover, previous methods encounter many false
negatives, i.e., images and reports from separate patients probably carry the
same semantics but are wrongly treated as negatives. In this paper, we decouple
images and texts for multimodal contrastive learning thus scaling the usable
training data in a combinatorial magnitude with low cost. We also propose to
replace the InfoNCE loss with semantic matching loss based on medical knowledge
to eliminate false negatives in contrastive learning. We prove that MedCLIP is
a simple yet effective framework: it outperforms state-of-the-art methods on
zero-shot prediction, supervised classification, and image-text retrieval.
Surprisingly, we observe that with only 20K pre-training data, MedCLIP wins
over the state-of-the-art method (using around 200K data). Our code is
available at https://github.com/RyanWangZf/MedCLIP.
- Abstract(参考訳): CLIPのような既存の視覚テキストのコントラスト学習は、ペア化されたイメージとキャプションの埋め込みを他のものを押し離しながらマッチングすることを目的としている。
しかし、医療用画像テキストデータセットは、インターネットの一般的な画像やキャプションよりも桁違いに小さい。
さらに、以前の方法では多くの偽陰性、すなわち別の患者の画像や報告はおそらく同じ意味を持つが、誤って否定として扱われる。
本稿では,マルチモーダルコントラスト学習のための画像とテキストを分離し,使用可能なトレーニングデータを低コストで組合せ等でスケールアップする。
また,逆学習における偽陰性を排除するために,医療知識に基づく意味的マッチング損失に置き換えることを提案する。
MedCLIPは, ゼロショット予測, 教師付き分類, 画像テキスト検索において, 最先端の手法より優れていることが証明された。
驚いたことに、20Kの事前学習データだけで、MedCLIPは最先端の手法(約200Kデータ)に勝っている。
私たちのコードはhttps://github.com/RyanWangZf/MedCLIPで利用可能です。
関連論文リスト
- TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。
LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。
以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - MLIP: Medical Language-Image Pre-training with Masked Local
Representation Learning [20.33625985769796]
既存のコントラスト言語画像事前学習は、豊富な画像とテキストのペアをマッチングすることで、共同表現を学習することを目的としている。
本稿では,限られた画像テキストの医療データをより効率的に活用する医用言語-画像事前学習フレームワークを提案する。
評価の結果、MLIPはゼロ/フェーショット分類や少数ショット分割タスクにおいて、従来よりも大きなマージンで性能が向上していることがわかった。
論文 参考訳(メタデータ) (2024-01-03T07:54:13Z) - Unified Medical Image-Text-Label Contrastive Learning With Continuous
Prompt [3.218449686637963]
本稿では,連続的なプロンプトに基づく画像-テキスト-ラベルのコントラスト学習フレームワークを提案する。
我々は,Unified Medical Contrastive Learningフレームワークが下流のタスクに優れた性能を示すことを示す十分な実験を通して実証する。
論文 参考訳(メタデータ) (2023-07-12T05:19:10Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - PCA: Semi-supervised Segmentation with Patch Confidence Adversarial
Training [52.895952593202054]
医用画像セグメンテーションのためのPatch Confidence Adrial Training (PCA) と呼ばれる半教師付き対向法を提案する。
PCAは各パッチの画素構造とコンテキスト情報を学習し、十分な勾配フィードバックを得る。
本手法は, 医用画像のセグメンテーションにおいて, 最先端の半教師付き手法より優れており, その有効性を示している。
論文 参考訳(メタデータ) (2022-07-24T07:45:47Z) - Is a Caption Worth a Thousand Images? A Controlled Study for
Representation Learning [88.5382122413913]
本研究では,従来の画像のみの手法よりも伝達可能な表現を持つ視覚モデルが得られるかを検討した。
画像のみの手法は、より多くの画像データでトレーニングされた場合でも、CLIPの転送性能と一致しないことがわかった。
この結果から,CLIPが既存の事前学習データセットに存在する言語情報を活用できるように,シンプルな処方薬を考案した。
論文 参考訳(メタデータ) (2022-07-15T17:50:51Z) - PyramidCLIP: Hierarchical Feature Alignment for Vision-language Model
Pretraining [68.84339672878066]
意味レベルが異なる入力ピラミッドを構築し,視覚的要素と言語的要素を階層構造として整列させる。
ゼロショット画像分類、ゼロショット画像テキスト検索、画像オブジェクト検出を含む3つの下流タスクの実験は、提案したピラミドCLIPの有効性を検証する。
論文 参考訳(メタデータ) (2022-04-29T13:38:42Z) - Positional Contrastive Learning for Volumetric Medical Image
Segmentation [13.086140606803408]
コントラストデータペアを生成するための新しい位置コントラスト学習フレームワークを提案する。
提案手法は,半教師付き設定と移動学習の両方において既存の手法と比較して,セグメンテーション性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2021-06-16T22:15:28Z) - Contrastive Learning of Medical Visual Representations from Paired
Images and Text [38.91117443316013]
本研究では,自然発生した記述的ペアリングテキストを活用することで,医用視覚表現を学習するための教師なし戦略であるConVIRTを提案する。
この2つのモダリティ間の双方向のコントラスト的目的を通じて、ペア化されたテキストデータを用いて医療画像エンコーダを事前訓練する手法は、ドメインに依存しないため、追加の専門家による入力は不要である。
論文 参考訳(メタデータ) (2020-10-02T02:10:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。