論文の概要: Supervision Exists Everywhere: A Data Efficient Contrastive
Language-Image Pre-training Paradigm
- arxiv url: http://arxiv.org/abs/2110.05208v1
- Date: Mon, 11 Oct 2021 12:17:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 18:32:04.254286
- Title: Supervision Exists Everywhere: A Data Efficient Contrastive
Language-Image Pre-training Paradigm
- Title(参考訳): Supervision Exists Everywhere:データ効率の良いコントラスト言語-画像事前学習パラダイム
- Authors: Yangguang Li, Feng Liang, Lichen Zhao, Yufeng Cui, Wanli Ouyang, Jing
Shao, Fengwei Yu, Junjie Yan
- Abstract要約: 大規模コントラスト言語-画像事前訓練(CLIP)は、その印象的なゼロショット認識能力と下流タスクへの優れた転送性により、前例のない注目を集めている。
本研究は,この制限を緩和する新たなトレーニングパラダイムであるData efficient CLIP (DeCLIP)を提案する。
画像とテキストのペア間の広範な監視を慎重に活用することにより、De-CLIPは汎用的な視覚的特徴をより効率的に学習できることを実証する。
- 参考スコア(独自算出の注目度): 109.0573737034428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, large-scale Contrastive Language-Image Pre-training (CLIP) has
attracted unprecedented attention for its impressive zero-shot recognition
ability and excellent transferability to downstream tasks. However, CLIP is
quite data-hungry and requires 400M image-text pairs for pre-training, thereby
restricting its adoption. This work proposes a novel training paradigm, Data
efficient CLIP (DeCLIP), to alleviate this limitation. We demonstrate that by
carefully utilizing the widespread supervision among the image-text pairs, our
De-CLIP can learn generic visual features more efficiently. Instead of using
the single image-text contrastive supervision, we fully exploit data potential
through the use of (1) self-supervision within each modality; (2) multi-view
supervision across modalities; (3) nearest-neighbor supervision from other
similar pairs. Benefiting from intrinsic supervision, our DeCLIP-ResNet50 can
achieve 60.4% zero-shot top1 accuracy on ImageNet, which is 0.8% above the
CLIP-ResNet50 while using 7.1 x fewer data. Our DeCLIP-ResNet50 outperforms its
counterpart in 8 out of 11 visual datasets when transferred to downstream
tasks. Moreover, Scaling up the model and computing also works well in our
framework.Our code, dataset and models are released at:
https://github.com/Sense-GVT/DeCLIP
- Abstract(参考訳): 近年、大規模なコントラスト言語画像事前学習(clip)は、印象的なゼロショット認識能力と下流タスクへの優れた転送性によって、前例のない注目を集めている。
しかし、CLIPは非常にデータ不足であり、事前トレーニングには4億のイメージテキストペアが必要であるため、採用が制限される。
本研究は,この制限を緩和する新たなトレーニングパラダイムであるData efficient CLIP (DeCLIP)を提案する。
画像とテキストのペア間の広範囲の監視を慎重に利用することにより、De-CLIPは汎用的な視覚的特徴をより効率的に学習できることを示す。
1) 各モダリティ内の自己スーパービジョン、(2)モダリティ間のマルチビュー・スーパービジョン、(3)他の類似したペアからの近距離・近距離のスーパービジョン、を用いて、データポテンシャルを完全に活用する。
DeCLIP-ResNet50は、本質的な監視から恩恵を受け、ImageNet上で60.4%のゼロショットトップ1の精度を達成できます。
当社のdeclip-resnet50は、ダウンストリームタスクに転送される11のビジュアルデータセットのうち8つを上回っています。
当社のコード、データセット、モデルは、https://github.com/Sense-GVT/DeCLIPでリリースされています。
関連論文リスト
- Data-Efficient Contrastive Language-Image Pretraining: Prioritizing Data Quality over Quantity [11.414069074535007]
大規模な画像キャプチャデータセットを用いたコントラスト言語-画像事前学習は、目覚ましいゼロショットの一般化を実現するための表現を学ぶ。
ベストを確実に一般化するトレーニングデータの小さなサブセットは、未解決の問題のままである。
画像とキャプションの相互共分散を密に保存する部分集合は、より優れた一般化性能が得られることを示す。
論文 参考訳(メタデータ) (2024-03-18T21:32:58Z) - VeCLIP: Improving CLIP Training via Visual-enriched Captions [63.547204530720705]
本研究は,ノイズキャプション書き換えのためのスケーラブルパイプラインを提案する。
視覚豊かなキャプション(VeCap)と呼ばれるキャプションへの視覚概念の組み入れを強調した。
本稿では,大規模なWebクローリングデータセットであるVeCLIP上でCLIPをトレーニングするためのこの手法の適用について紹介する。
論文 参考訳(メタデータ) (2023-10-11T17:49:13Z) - ReCLIP: Refine Contrastive Language Image Pre-Training with Source Free
Domain Adaptation [20.57370550156505]
ReCLIPは、ヴィジュアル言語モデルのための、ソースフリーなドメイン適応手法である。
ReCLIPは、22の画像分類ベンチマークにおいて、CLIPの平均エラー率を30.17%から25.06%に下げることを示した。
論文 参考訳(メタデータ) (2023-08-04T18:11:40Z) - Improving CLIP Training with Language Rewrites [57.935517901210225]
言語書き換えによるCLIPトレーニングを強化するために,Language augmented CLIP (LaCLIP)を導入した。
また,LaCLIPは,学習中に計算やメモリオーバーヘッドを伴わずに転送性能を大幅に向上することを示した。
ImageNetゼロショット精度では、LaCLIPはCC12MでCLIPを8.2%、LAION-400Mで2.4%上回る。
論文 参考訳(メタデータ) (2023-05-31T17:59:04Z) - Boosting Visual-Language Models by Exploiting Hard Samples [126.35125029639168]
HELIPは、既存のCLIPモデルの性能を高めるための費用対効果戦略である。
我々の方法では、既存のモデルのトレーニングパイプラインと懸命に統合できます。
包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。