論文の概要: Robust Cross-Modal Representation Learning with Progressive
Self-Distillation
- arxiv url: http://arxiv.org/abs/2204.04588v1
- Date: Sun, 10 Apr 2022 03:28:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 15:02:19.707858
- Title: Robust Cross-Modal Representation Learning with Progressive
Self-Distillation
- Title(参考訳): 進行的自己蒸留によるロバストなクロスモーダル表現学習
- Authors: Alex Andonian, Shixing Chen, Raffay Hamid
- Abstract要約: CLIPの視覚言語アプローチの学習目的は、Webハーベスト画像キャプションデータセットに見られるノイズの多い多対多対応を効果的に考慮していない。
本研究では、進行的な自己蒸留とソフトな画像テキストアライメントを用いて、雑音の多いデータから頑健な表現をより効率的に学習するクロスモーダルコントラスト学習に基づく新しいトレーニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.676408770854477
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The learning objective of vision-language approach of CLIP does not
effectively account for the noisy many-to-many correspondences found in
web-harvested image captioning datasets, which contributes to its compute and
data inefficiency. To address this challenge, we introduce a novel training
framework based on cross-modal contrastive learning that uses progressive
self-distillation and soft image-text alignments to more efficiently learn
robust representations from noisy data. Our model distills its own knowledge to
dynamically generate soft-alignment targets for a subset of images and captions
in every minibatch, which are then used to update its parameters. Extensive
evaluation across 14 benchmark datasets shows that our method consistently
outperforms its CLIP counterpart in multiple settings, including: (a) zero-shot
classification, (b) linear probe transfer, and (c) image-text retrieval,
without incurring added computational cost. Analysis using an ImageNet-based
robustness test-bed reveals that our method offers better effective robustness
to natural distribution shifts compared to both ImageNet-trained models and
CLIP itself. Lastly, pretraining with datasets spanning two orders of magnitude
in size shows that our improvements over CLIP tend to scale with number of
training examples.
- Abstract(参考訳): CLIPの視覚言語アプローチの学習目的は、Webハーベスト画像キャプションデータセットに見られるノイズの多い多対多の対応を効果的に考慮していない。
そこで本研究では, 逐次自己蒸留とソフトイメージテキストアライメントを用いて, 雑音データからロバスト表現をより効率的に学習するクロスモーダルコントラスト学習に基づく新しい学習フレームワークを提案する。
我々のモデルは,各ミニバッチにおける画像とキャプションのサブセットに対するソフトアライメントターゲットを動的に生成するために,独自の知識を抽出し,パラメータを更新する。
14のベンチマークデータセットにわたる大規模な評価では、私たちのメソッドは、複数の設定でCLIPよりも一貫して優れています。
(a)ゼロショット分類
(b)直線プローブ移動、及び
(c)計算コストの増大を伴わない画像テキスト検索。
ImageNet-based robustness test-bed を用いて解析した結果,本手法はImageNet-trained model と CLIP 自体と比較して,自然分布シフトに対して有効なロバスト性を提供することがわかった。
最後に、2桁のサイズのデータセットによる事前トレーニングは、CLIPに対する改善が、多数のトレーニング例でスケールする傾向にあることを示している。
関連論文リスト
- TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - Contrastive Learning with Synthetic Positives [11.932323457691945]
近隣住民との対比学習は、最も効率的な自己教師付き学習(SSL)技術の1つであることが証明されている。
本稿では,NCLP(Contrastive Learning with Synthetic Positives)という新しいアプローチを提案する。
NCLPは、無条件拡散モデルによって生成された合成画像を利用して、モデルが多様な正から学ぶのに役立つ追加の正として利用する。
論文 参考訳(メタデータ) (2024-08-30T01:47:43Z) - Semantic Compositions Enhance Vision-Language Contrastive Learning [46.985865191341944]
CLIPのようなモデルのゼロショット分類と検索能力は、事前学習中に意味論的に複合的な例を導入することで大幅に向上できることを示す。
本手法はキャプションを融合させ,各画像の50%をブレンドして新しい複合試料を作成する。
CLIP-Cの利点は、特に比較的限られた事前学習データを持つ設定で顕著である。
論文 参考訳(メタデータ) (2024-07-01T15:58:20Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - Transformer-based Clipped Contrastive Quantization Learning for
Unsupervised Image Retrieval [15.982022297570108]
教師なし画像検索は、与えられたクエリ画像の類似画像を取得するために、任意のレベルなしに重要な視覚的特徴を学習することを目的としている。
本稿では,パッチベースの処理により局所的なコンテキストを持つTransformerを用いて,画像のグローバルコンテキストを符号化するTransClippedCLRモデルを提案する。
提案したクリップ付きコントラスト学習の結果は、バニラコントラスト学習と同一のバックボーンネットワークと比較して、すべてのデータセットで大幅に改善されている。
論文 参考訳(メタデータ) (2024-01-27T09:39:11Z) - Understanding Transferable Representation Learning and Zero-shot Transfer in CLIP [84.90129481336659]
CLIPの基盤となるトランスファーブル表現学習について検討し、異なるモダリティの特徴の整合性を実証する。
そこで本研究では,ベンチマークデータセット上でのCLIPや他の最先端手法よりも優れた性能を実現するCLIP型アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-02T06:41:30Z) - Semi-Supervised Image Captioning by Adversarially Propagating Labeled
Data [95.0476489266988]
本稿では、画像キャプションモデルの一般化を改善するための、新しいデータ効率半教師付きフレームワークを提案する。
提案手法は,キャプタにペアデータから学習し,段階的に未ペアデータの関連付けを行うよう訓練する。
1)画像ベースと(2)高密度領域ベースキャプションデータセットの両方を総合的かつ包括的な実験結果とし,それに続いて,少ないペアリングデータセットの包括的分析を行った。
論文 参考訳(メタデータ) (2023-01-26T15:25:43Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。