論文の概要: Data-Efficient Contrastive Language-Image Pretraining: Prioritizing Data Quality over Quantity
- arxiv url: http://arxiv.org/abs/2403.12267v1
- Date: Mon, 18 Mar 2024 21:32:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 18:02:18.209383
- Title: Data-Efficient Contrastive Language-Image Pretraining: Prioritizing Data Quality over Quantity
- Title(参考訳): データ効率の良いコントラスト言語画像事前学習:量よりもデータ品質を優先する
- Authors: Siddharth Joshi, Arnav Jain, Ali Payani, Baharan Mirzasoleiman,
- Abstract要約: 大規模な画像キャプチャデータセットを用いたコントラスト言語-画像事前学習は、目覚ましいゼロショットの一般化を実現するための表現を学ぶ。
ベストを確実に一般化するトレーニングデータの小さなサブセットは、未解決の問題のままである。
画像とキャプションの相互共分散を密に保存する部分集合は、より優れた一般化性能が得られることを示す。
- 参考スコア(独自算出の注目度): 11.414069074535007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contrastive Language-Image Pre-training (CLIP) on large-scale image-caption datasets learns representations that can achieve remarkable zero-shot generalization. However, such models require a massive amount of pre-training data. Improving the quality of the pre-training data has been shown to be much more effective in improving CLIP's performance than increasing its volume. Nevertheless, finding small subsets of training data that provably generalize the best has remained an open question. In this work, we propose the first theoretically rigorous data selection method for CLIP. We show that subsets that closely preserve the cross-covariance of the images and captions of the full data provably achieve a superior generalization performance. Our extensive experiments on ConceptualCaptions3M and ConceptualCaptions12M demonstrate that subsets found by \method\ achieve over 2.7x and 1.4x the accuracy of the next best baseline on ImageNet and its shifted versions. Moreover, we show that our subsets obtain 1.5x the average accuracy across 11 downstream datasets, of the next best baseline. The code is available at: https://github.com/BigML-CS-UCLA/clipcov-data-efficient-clip.
- Abstract(参考訳): 大規模画像キャプチャデータセット上でのCLIP(Contrastive Language- Image Pre-Training)は、目覚ましいゼロショットの一般化を実現する表現を学習する。
しかし、そのようなモデルは大量の事前学習データを必要とする。
事前トレーニングデータの品質向上は、ボリュームの増加よりもCLIPのパフォーマンス向上に有効であることが示されている。
それでも、ベストを確実に一般化するトレーニングデータの小さなサブセットを見つけることは、未解決の問題のままである。
本稿では,CLIPの理論的に厳密なデータ選択法を提案する。
画像とキャプションの相互共分散を密に保存する部分集合は、より優れた一般化性能が得られることを示す。
ConceptualCaptions3MとConceptualCaptions12Mの広範な実験により、 \method\が発見したサブセットは、ImageNetとそのシフトしたバージョンにおける次の最良のベースラインの精度の2.7倍と1.4倍の精度を達成することが示された。
さらに,我々のサブセットでは,11の下流データセットの平均精度が1.5倍になることを示す。
コードはhttps://github.com/BigML-CS-UCLA/clipcov-data-efficient-clip.comで入手できる。
関連論文リスト
- CLIP with Quality Captions: A Strong Pretraining for Vision Tasks [16.208506912410147]
良質なキャプションを用いたCLIPプレトレーニングは,近年の教師付き・自己監督型・弱教師付きプレトレーニング方法を上回る可能性がある。
モバイルアーキテクチャはCLIP事前トレーニングのメリットも大きいことが分かっています。
論文 参考訳(メタデータ) (2024-05-14T19:06:24Z) - VeCLIP: Improving CLIP Training via Visual-enriched Captions [63.547204530720705]
本研究は,ノイズキャプション書き換えのためのスケーラブルパイプラインを提案する。
視覚豊かなキャプション(VeCap)と呼ばれるキャプションへの視覚概念の組み入れを強調した。
本稿では,大規模なWebクローリングデータセットであるVeCLIP上でCLIPをトレーニングするためのこの手法の適用について紹介する。
論文 参考訳(メタデータ) (2023-10-11T17:49:13Z) - Image Clustering via the Principle of Rate Reduction in the Age of Pretrained Models [37.574691902971296]
本稿では,大規模事前学習モデルの強力な特徴表現を利用した画像クラスタリングパイプラインを提案する。
パイプラインは、CIFAR-10、CIFAR-100、ImageNet-1kなどの標準データセットでうまく動作することを示す。
論文 参考訳(メタデータ) (2023-06-08T15:20:27Z) - Meta-Optimization for Higher Model Generalizability in Single-Image
Depth Prediction [19.469860191876876]
我々は、勾配に基づくメタラーニングを活用し、ゼロショットのクロスデータセット推論における高い一般化性を実現する。
メタラーニングにおける最も研究されている画像分類とは異なり、深度はピクセルレベルの連続範囲値である。
メタ最適化において,各RGB-Dペアをタスクとして扱う,きめ細かいタスクを提案する。
論文 参考訳(メタデータ) (2023-05-12T06:17:13Z) - Boosting Visual-Language Models by Exploiting Hard Samples [126.35125029639168]
HELIPは、既存のCLIPモデルの性能を高めるための費用対効果戦略である。
我々の方法では、既存のモデルのトレーニングパイプラインと懸命に統合できます。
包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - The Role of Pre-training Data in Transfer Learning [20.768366728182997]
プレトレーニングデータ分布が複数ショットおよびフル微調整性能に与える影響について検討する。
プレトレーニングされたデータソースの選択は、数ショットの転送には不可欠であることがわかったが、その役割は微調整のためにより多くのデータが利用可能になるにつれて減少する。
論文 参考訳(メタデータ) (2023-02-27T09:10:08Z) - Improving Zero-shot Generalization and Robustness of Multi-modal Models [70.14692320804178]
CLIPやLiTのようなマルチモーダルな画像テキストモデルは、画像分類ベンチマークで顕著な性能を示している。
本研究は,この性能差の原因を考察し,テキストプロンプトの曖昧さによる障害事例の多くが原因であることを示す。
本稿では,WordNet階層を用いて,不確実な画像の精度を向上させるための簡易かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-12-04T07:26:24Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - Efficient Conditional Pre-training for Transfer Learning [71.01129334495553]
本稿では,事前学習データセットから関連するサブセットを選択するための効率的なフィルタリング手法を提案する。
我々は、教師なし設定と教師なし設定の両方において、ImageNetで事前トレーニングを行うことで、我々の技術を検証する。
我々は、サブセットで利用可能なモデルをチューニングし、大規模なデータセットからフィルタリングされたデータセットで事前トレーニングすることで、標準のImageNet事前トレーニングを1~3%改善する。
論文 参考訳(メタデータ) (2020-11-20T06:16:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。