論文の概要: Demystifying CLIP Data
- arxiv url: http://arxiv.org/abs/2309.16671v3
- Date: Mon, 2 Oct 2023 07:12:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 10:46:08.656728
- Title: Demystifying CLIP Data
- Title(参考訳): CLIPデータのデマイズ
- Authors: Hu Xu, Saining Xie, Xiaoqing Ellen Tan, Po-Yao Huang, Russell Howes,
Vasu Sharma, Shang-Wen Li, Gargi Ghosh, Luke Zettlemoyer, Christoph
Feichtenhofer
- Abstract要約: Contrastive Language-Image Pre-Training (CLIP) はコンピュータビジョンの先進的な研究と応用を行っている。
メタデータ変換言語画像事前学習(MetaCLIP)について紹介する。
MetaCLIPは生のデータプールとメタデータ(CLIPの概念から派生したもの)を取り、メタデータの分布に対してバランスの取れたサブセットを生成する。
- 参考スコア(独自算出の注目度): 89.2132793325337
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Contrastive Language-Image Pre-training (CLIP) is an approach that has
advanced research and applications in computer vision, fueling modern
recognition systems and generative models. We believe that the main ingredient
to the success of CLIP is its data and not the model architecture or
pre-training objective. However, CLIP only provides very limited information
about its data and how it has been collected, leading to works that aim to
reproduce CLIP's data by filtering with its model parameters. In this work, we
intend to reveal CLIP's data curation approach and in our pursuit of making it
open to the community introduce Metadata-Curated Language-Image Pre-training
(MetaCLIP). MetaCLIP takes a raw data pool and metadata (derived from CLIP's
concepts) and yields a balanced subset over the metadata distribution. Our
experimental study rigorously isolates the model and training settings,
concentrating solely on data. MetaCLIP applied to CommonCrawl with 400M
image-text data pairs outperforms CLIP's data on multiple standard benchmarks.
In zero-shot ImageNet classification, MetaCLIP achieves 70.8% accuracy,
surpassing CLIP's 68.3% on ViT-B models. Scaling to 1B data, while maintaining
the same training budget, attains 72.4%. Our observations hold across various
model sizes, exemplified by ViT-H achieving 80.5%, without any
bells-and-whistles. Curation code and training data distribution on metadata is
made available at https://github.com/facebookresearch/MetaCLIP.
- Abstract(参考訳): Contrastive Language-Image Pre-Training (CLIP) はコンピュータビジョンの先進的な研究と応用を行い、現代の認識システムと生成モデルを活性化するアプローチである。
clipの成功の主な要因は、モデルアーキテクチャやトレーニング対象ではなく、そのデータであると考えています。
しかし、クリップはそのデータとその収集方法に関する限られた情報しか提供せず、モデルパラメータでフィルタリングすることでクリップのデータを再現することを目的としている。
本研究は,クリップのデータキュレーションアプローチを明らかにし,メタデータによる言語イメージ事前トレーニング(metaclip)をコミュニティに公開することを目的としています。
MetaCLIPは生のデータプールとメタデータ(CLIPの概念から派生したもの)を取り、メタデータの分布に対してバランスの取れたサブセットを生成する。
実験では,データのみに集中して,モデルとトレーニング設定を厳格に分離した。
MetaCLIPはCommonCrawlに4億の画像テキストデータペアで適用され、CLIPのデータを複数の標準ベンチマークで上回る。
ゼロショットイメージネット分類では、MetaCLIPは70.8%の精度で、ViT-BモデルでCLIPの68.3%を上回っている。
1Bデータへのスケーリングは同じトレーニング予算を維持しながら、72.4%に達する。
我々の観測は、ViT-Hが80.5%、ベル・アンド・ウィストルを使わずに、様々なモデルサイズにまたがっている。
メタデータのキュレーションコードとトレーニングデータの配布はhttps://github.com/facebookresearch/MetaCLIPで公開されている。
関連論文リスト
- Self-Calibrated CLIP for Training-Free Open-Vocabulary Segmentation [19.749490092520006]
Self-Calibrated CLIP (SC-CLIP) は、CLIPを校正してより微細な言語表現を生成する訓練不要の手法である。
SC-CLIPはバニラCLIP ViT-L/14の性能を6.8倍向上させる。
論文 参考訳(メタデータ) (2024-11-24T15:14:05Z) - MoDE: CLIP Data Experts via Clustering [119.88225963429569]
データエキスパートの混合(Mixture of Data Experts, MODE)を提示し,クラスタリングによるCLIPデータエキスパートのシステム学習を行う。
各データエキスパートは、あるデータクラスタでトレーニングされ、他のクラスタの偽陰性ノイズに対する感度が低い。
実験によると、ViT-B/16の4人のCLIPデータ専門家が、OpenAI CLIPとOpenCLIPによるViT-L/14のゼロショット画像分類よりも優れていた。
論文 参考訳(メタデータ) (2024-04-24T17:59:24Z) - Scaling (Down) CLIP: A Comprehensive Analysis of Data, Architecture, and Training Strategies [27.809995478990544]
本稿では,CLIP(Contrastive Language-Image Pre-Training)の性能を,限られた計算予算にスケールダウンする際の性能について検討する。
高品質なデータのより小さなデータセットは、より低い品質のデータセットよりも優れていることを示す。
SLIP、FLIP、CLIP、CLIP+Data Augmentationという4つのCLIPトレーニング戦略を比較し、トレーニング戦略の選択が利用可能な計算リソースに依存することを示す。
論文 参考訳(メタデータ) (2024-04-12T02:04:34Z) - A Sober Look at the Robustness of CLIPs to Spurious Features [45.87070442259975]
私たちはCLIPモデルが現実的なスプリアス機能に依存していることを明らかにするために、CounterAnimalという新しいデータセットを作成しました。
評価の結果、CounterAnimalが取得したスプリアス特性は、異なるバックボーンとプレトレインデータを持つCLIPモデルによって総称的に学習されるが、ImageNetモデルへの影響は限定的であることが示された。
論文 参考訳(メタデータ) (2024-03-18T06:04:02Z) - VeCLIP: Improving CLIP Training via Visual-enriched Captions [63.547204530720705]
本研究は,ノイズキャプション書き換えのためのスケーラブルパイプラインを提案する。
視覚豊かなキャプション(VeCap)と呼ばれるキャプションへの視覚概念の組み入れを強調した。
本稿では,大規模なWebクローリングデータセットであるVeCLIP上でCLIPをトレーニングするためのこの手法の適用について紹介する。
論文 参考訳(メタデータ) (2023-10-11T17:49:13Z) - Boosting Visual-Language Models by Exploiting Hard Samples [126.35125029639168]
HELIPは、既存のCLIPモデルの性能を高めるための費用対効果戦略である。
我々の方法では、既存のモデルのトレーニングパイプラインと懸命に統合できます。
包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - DataComp: In search of the next generation of multimodal datasets [179.79323076587255]
DataCompは、Common Crawlの128億の画像テキストペアの候補プールを中心にしたデータセット実験用のテストベッドである。
我々のベンチマークは、複数の計算スケールから成っている。
特に、最良のベースラインであるDataComp-1Bは、ImageNetでCLIP ViT-L/14をスクラッチから79.2%のゼロショット精度でトレーニングすることが可能です。
論文 参考訳(メタデータ) (2023-04-27T11:37:18Z) - Architecture, Dataset and Model-Scale Agnostic Data-free Meta-Learning [119.70303730341938]
データフリーメタトレーニングにおけるePisode cUrriculum inversion(ECI)と、内部ループ後のinvErsion calibRation(ICFIL)を提案する。
ECIは、メタモデルのリアルタイムフィードバックに応じて、擬似エピソードの難易度を適応的に増加させる。
本稿では,ECIを用いたメタトレーニングの最適化過程を,エンド・ツー・エンド方式で近似形式として定式化する。
論文 参考訳(メタデータ) (2023-03-20T15:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。