論文の概要: MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image
Pretraining
- arxiv url: http://arxiv.org/abs/2208.12262v2
- Date: Sun, 9 Apr 2023 15:59:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 23:35:51.932598
- Title: MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image
Pretraining
- Title(参考訳): MaskCLIP:Masked Self-Distillation Advances Contrastive Language- Image Pretraining
- Authors: Xiaoyi Dong and Jianmin Bao and Yinglin Zheng and Ting Zhang and
Dongdong Chen and Hao Yang and Ming Zeng and Weiming Zhang and Lu Yuan and
Dong Chen and Fang Wen and Nenghai Yu
- Abstract要約: MaskCLIPは、新たに提案されたマスク付き自己蒸留をコントラスト言語イメージ事前学習に組み込む。
MaskCLIPは、言語エンコーダの誘導により、線形探索、微調整、ゼロショット性能において優れた結果が得られる。
- 参考スコア(独自算出の注目度): 138.86293836634323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a simple yet effective framework MaskCLIP, which
incorporates a newly proposed masked self-distillation into contrastive
language-image pretraining. The core idea of masked self-distillation is to
distill representation from a full image to the representation predicted from a
masked image. Such incorporation enjoys two vital benefits. First, masked
self-distillation targets local patch representation learning, which is
complementary to vision-language contrastive focusing on text-related
representation. Second, masked self-distillation is also consistent with
vision-language contrastive from the perspective of training objective as both
utilize the visual encoder for feature aligning, and thus is able to learn
local semantics getting indirect supervision from the language. We provide
specially designed experiments with a comprehensive analysis to validate the
two benefits. Symmetrically, we also introduce the local semantic supervision
into the text branch, which further improves the pretraining performance. With
extensive experiments, we show that MaskCLIP, when applied to various
challenging downstream tasks, achieves superior results in linear probing,
finetuning, and zero-shot performance with the guidance of the language
encoder. Code will be release at \url{https://github.com/LightDXY/MaskCLIP}.
- Abstract(参考訳): 本稿では, マスク付き自己蒸留をコントラスト型言語画像事前学習に組み込んだ, シンプルで効果的なフレームワークMaskCLIPを提案する。
マスク付き自己蒸留の基本的な考え方は、完全な画像からマスク付き画像から予測された表現に表現を蒸留することである。
このような法人化は2つの重要な利益をもたらす。
まず、マスキング自己蒸留は、テキスト関連表現に注目した視覚言語コントラストを補完する局所パッチ表現学習をターゲットとしている。
第二に、マスク付き自己蒸留は、視覚的エンコーダを機能調整に利用し、言語から間接的な監督を受けるローカルセマンティクスを学習できるため、トレーニング目標の観点からの視覚言語との対比とも一致している。
この2つの利点を検証するための総合的な分析を特別に設計した実験を行う。
対称的に、テキストブランチに局所的な意味的監督を導入し、事前学習性能をさらに向上させる。
広範囲な実験により,様々な難易度の高い下流タスクに適用すると,言語エンコーダの指導により,線形プローブ,微調整,ゼロショット性能において優れた結果が得られることを示した。
コードは \url{https://github.com/LightDXY/MaskCLIP} でリリースされる。
関連論文リスト
- Masked Visual Reconstruction in Language Semantic Space [38.43966132249977]
Masked visual Reconstruction In Language semantic Space (RILS) pre-training frameworkについて述べる。
RILSは、視覚のみの信号を意味的に意味のあるMIM再構成ターゲットとしてパッチ文の確率に変換する。
本手法は,下流の分類,検出,セグメンテーションにおける高度な転送性を示す。
論文 参考訳(メタデータ) (2023-01-17T15:32:59Z) - Leveraging per Image-Token Consistency for Vision-Language Pre-training [52.825150269820696]
クロスモーダルマスク言語モデリング(CMLM)は視覚言語事前学習には不十分である。
視覚言語事前学習のためのEPIC(Leveraging Per Image-Token Consistency)を提案する。
提案手法は, 事前学習法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2022-11-20T12:10:53Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Exploring Visual Interpretability for Contrastive Language-Image
Pre-training [23.569964756096986]
コントラスト言語-画像事前学習は、自然言語の監視を通じて豊かな表現を学習する。
CLIPの視覚的解釈性はまだ研究されていない。
上述の手法をICLIP(Interpretable Contrastive Language- Image Pre-training)として統合する。
論文 参考訳(メタデータ) (2022-09-15T05:01:03Z) - MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining [68.05105411320842]
本稿では,従来のエンコーダ・デコーダ認識フレームワークにおいて,視覚と言語を事前学習するための新しいアプローチであるMaskOCRを提案する。
マスク付き画像モデリング手法を用いて、未ラベルのテキスト画像の集合を用いて特徴エンコーダを事前学習する。
テキストデータを合成されたテキスト画像に変換し、視覚と言語のデータモダリティを統一し、シーケンスデコーダの言語モデリング能力を向上する。
論文 参考訳(メタデータ) (2022-06-01T08:27:19Z) - Open-Vocabulary Instance Segmentation via Robust Cross-Modal
Pseudo-Labeling [61.03262873980619]
Open-vocabularyのインスタンスセグメンテーションは、マスクアノテーションなしで新しいクラスをセグメンテーションすることを目的としている。
本研究では,字幕内の単語の意味を画像中のオブジェクトマスクの視覚的特徴と整合させることで,擬似マスクの訓練を行うクロスモーダルな擬似ラベルフレームワークを提案する。
我々のフレームワークは、生徒の自己学習のための単語意味論を通じて、キャプションに新しいクラスをラベル付けすることができる。
論文 参考訳(メタデータ) (2021-11-24T18:50:47Z) - Self-Supervised Visual Representations Learning by Contrastive Mask
Prediction [129.25459808288025]
視覚表現学習のための新しいコントラストマスク予測(CMP)タスクを提案する。
MaskCoは、ビューレベルの機能ではなく、リージョンレベルの機能と対比している。
我々は、ImageNet以外のデータセットのトレーニングでMaskCoを評価し、そのパフォーマンスをMoCo V2と比較した。
論文 参考訳(メタデータ) (2021-08-18T02:50:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。