論文の概要: CLIPA-v2: Scaling CLIP Training with 81.1% Zero-shot ImageNet Accuracy
within a \$10,000 Budget; An Extra \$4,000 Unlocks 81.8% Accuracy
- arxiv url: http://arxiv.org/abs/2306.15658v1
- Date: Tue, 27 Jun 2023 17:51:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 12:11:09.267590
- Title: CLIPA-v2: Scaling CLIP Training with 81.1% Zero-shot ImageNet Accuracy
within a \$10,000 Budget; An Extra \$4,000 Unlocks 81.8% Accuracy
- Title(参考訳): CLIPA-v2: 81.1%ゼロショットイメージネットの精度を1万ドル予算内で拡張するCLIPトレーニング。
- Authors: Xianhang Li, Zeyu Wang, Cihang Xie
- Abstract要約: CLIPトレーニングの逆スケーリング法であるCLIPA-v2を提案する。
実験を13B画像テキストペアでH/14モデルに拡張する。
我々のモデルは、印象的なゼロショット画像Netの精度81.1%を達成する。
- 参考スコア(独自算出の注目度): 20.495259430916814
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The recent work CLIPA presents an inverse scaling law for CLIP training --
whereby the larger the image/text encoders used, the shorter the sequence
length of image/text tokens that can be applied in training. This finding
enables us to train high-performance CLIP models with significantly reduced
computations. Building upon this work, we hereby present CLIPA-v2 with two key
contributions. Technically, we find this inverse scaling law is also applicable
in the finetuning stage, enabling further reduction in computational needs.
Empirically, we explore CLIPA at scale, extending the experiments up to the
H/14 model with ~13B image-text pairs seen during training.
Our results are exciting -- by only allocating a budget of \$10,000, our CLIP
model achieves an impressive zero-shot ImageNet accuracy of 81.1%, surpassing
the prior best CLIP model (from OpenCLIP, 80.1%) by 1.0% and meanwhile reducing
the computational cost by ~39X. Moreover, with an additional investment of
$4,000, we can further elevate the zero-shot ImageNet accuracy to 81.8%. Our
code and models are available at https://github.com/UCSC-VLAA/CLIPA.
- Abstract(参考訳): 最近のCLIPAでは、CLIPトレーニングの逆スケーリング法が提案されている - 使用されるイメージ/テキストエンコーダが大きいほど、トレーニングに適用可能な画像/テキストトークンのシーケンス長が短くなる。
この発見により,計算量を大幅に削減した高性能CLIPモデルを訓練することができる。
この作業に基づいて、CLIPA-v2を2つの重要なコントリビューションで紹介します。
技術的には、この逆スケーリング法則は微調整段階にも適用でき、計算ニーズのさらなる削減を可能にする。
経験的に、私たちはclipaを大規模に調査し、トレーニング中に約13bのイメージテキストペアで実験をh/14モデルに拡張した。
私たちのCLIPモデルは1万ドルの予算のみを割り当てることで、81.1%の印象的なゼロショット画像ネット精度を実現し、以前の最高のCLIPモデル(OpenCLIP 80.1%)を1.0%上回り、計算コストを約39倍削減しました。
さらに、4000ドルの追加投資により、ゼロショットイメージネットの精度をさらに81.8%向上させることができる。
私たちのコードとモデルはhttps://github.com/UCSC-VLAA/CLIPAで公開されています。
関連論文リスト
- TinyCLIP: CLIP Distillation via Affinity Mimicking and Weight
Inheritance [97.01406871579525]
大規模言語画像事前学習モデルのための新しいクロスモーダル蒸留法TinyCLIPを提案する。
また、TinyCLIPは、トレーニング済みのCLIP ViT-B/32のサイズを50%削減し、ゼロショット性能を同等に維持できることを示した。
YFCC-15MでトレーニングしたTinyCLIP ViT-8M/16は、ImageNetで41.1%という印象的なゼロショットトップ1の精度を達成した。
論文 参考訳(メタデータ) (2023-09-21T17:59:53Z) - An Inverse Scaling Law for CLIP Training [24.961315762769893]
ここでは,CLIPトレーニングの逆スケーリング法則が存在することを示す。
限られた計算資源でもCLIPをトレーニングできるのです。
論文 参考訳(メタデータ) (2023-05-11T17:56:09Z) - EVA-CLIP: Improved Training Techniques for CLIP at Scale [20.145062325090286]
本稿では,CLIPトレーニングの効率と有効性を向上する一連のモデルであるEVA-CLIPを提案する。
提案手法は, 表現学習, 最適化, 拡張のための新しい手法を取り入れ, EVA-CLIPによる性能向上を実現する。
論文 参考訳(メタデータ) (2023-03-27T17:02:21Z) - Open-VCLIP: Transforming CLIP to an Open-vocabulary Video Model via
Interpolated Weight Optimization [82.75718846187685]
我々は、CLIPを強力なゼロショットビデオ分類器に変換する、シンプルで効果的なアプローチであるOpen-VCLIPを紹介する。
我々は,Open-VCLIPのトレーニングが,履歴データゼロの連続学習と等価であることを示す。
特に、UCF、HMDB、Kinetics-600データセットで87.9%、58.3%、81.1%のゼロショット精度を達成した。
論文 参考訳(メタデータ) (2023-02-01T17:44:17Z) - Attentive Mask CLIP [48.206857783966996]
テキスト記述に高い意味的相関を持つトークンを保持するCLIPトレーニングのための注意的トークン除去手法を提案する。
提案手法は、ImageNet-1Kゼロショット分類で43.9%の精度、62.7/42.1ドルの精度、38.0/23.2ドルのI2T/T2I検索精度を実現している。
論文 参考訳(メタデータ) (2022-12-16T18:59:12Z) - CLIP Itself is a Strong Fine-tuner: Achieving 85.7% and 88.0% Top-1
Accuracy with ViT-B and ViT-L on ImageNet [139.56863124214905]
CLIPの微調整性能はかなり過小評価されている。
具体的には、CLIP ViT-Base/16とCLIP ViT-Large/14は、ImageNet-1KデータセットのTop-1精度を85.7%、88.0%微調整することができる。
論文 参考訳(メタデータ) (2022-12-12T18:59:59Z) - Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese [55.95225353842118]
我々は中国語で画像とテキストのペアの大規模なデータセットを構築し、ほとんどのデータは公開データセットから取得する。
77~958万のパラメータにまたがる,複数サイズの中国製CLIPモデルを5種類開発している。
実験の結果,中国のCLIPはMUGE,Flickr30K-CN,COCO-CNの最先端性能を達成できた。
論文 参考訳(メタデータ) (2022-11-02T17:47:23Z) - Supervision Exists Everywhere: A Data Efficient Contrastive
Language-Image Pre-training Paradigm [109.0573737034428]
大規模コントラスト言語-画像事前訓練(CLIP)は、その印象的なゼロショット認識能力と下流タスクへの優れた転送性により、前例のない注目を集めている。
本研究は,この制限を緩和する新たなトレーニングパラダイムであるData efficient CLIP (DeCLIP)を提案する。
画像とテキストのペア間の広範な監視を慎重に活用することにより、De-CLIPは汎用的な視覚的特徴をより効率的に学習できることを実証する。
論文 参考訳(メタデータ) (2021-10-11T12:17:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。