論文の概要: An Inverse Scaling Law for CLIP Training
- arxiv url: http://arxiv.org/abs/2305.07017v2
- Date: Sat, 28 Oct 2023 23:25:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 22:40:43.907034
- Title: An Inverse Scaling Law for CLIP Training
- Title(参考訳): CLIPトレーニングにおける逆スケーリング法
- Authors: Xianhang Li, Zeyu Wang, Cihang Xie
- Abstract要約: ここでは,CLIPトレーニングの逆スケーリング法則が存在することを示す。
限られた計算資源でもCLIPをトレーニングできるのです。
- 参考スコア(独自算出の注目度): 24.961315762769893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: CLIP, one of the pioneering foundation models that connect images and text,
has enabled many recent breakthroughs in computer vision. However, its
associated training cost is prohibitively high, imposing a significant barrier
to its widespread exploration. In this paper, we present a surprising finding
that there exists an inverse scaling law for CLIP training, whereby the larger
the image/text encoders used, the shorter the sequence length of image/text
tokens that can be applied in training. Moreover, we showcase that the strategy
for reducing image/text token length plays a crucial role in determining the
quality of this scaling law.
As a result of this finding, we are able to successfully train CLIP even with
limited computational resources. For example, using 8 A100 GPUs, our CLIP
models achieve zero-shot top-1 ImageNet-1k accuracies of 63.2% in ~2 days,
67.8% in ~3 days, and 69.3% in ~4 days. Our method also works well when scaling
up -- with G/14, we register a new record of 83.0% ImageNet-1k zero-shot
accuracy, and meanwhile accelerate the training by ~33x compared to its
OpenCLIP counterpart. By reducing the computation barrier associated with CLIP,
we hope to inspire more research in this field, particularly from academics.
Our code is available at https://github.com/UCSC-VLAA/CLIPA.
- Abstract(参考訳): 画像とテキストを接続する先駆的な基盤モデルの1つであるCLIPは、コンピュータビジョンにおける最近のブレークスルーを可能にした。
しかし、それに伴う訓練費は禁止的に高く、広範な探検の障壁となっている。
本稿では,CLIPトレーニングの逆スケーリング法が存在し,画像/テキストエンコーダが大きいほど,トレーニングに応用可能な画像/テキストトークンのシーケンス長が短くなる,という驚くべき発見を示す。
さらに,画像/テキストトークン長の削減戦略が,このスケーリング則の品質を決定する上で重要な役割を担っていることを示す。
この結果,計算資源が限られている場合でも,CLIPをうまく訓練できることがわかった。
例えば、私たちのCLIPモデルは8つのA100 GPUを使用して、0ショットのトップ-1 ImageNet-1kアキュラシーーを約2日間で63.2%、約3日間で67.8%、約4日間で69.3%を達成する。
G/14では、ImageNet-1kゼロショットの精度が83.0%の新しいレコードを登録し、OpenCLIPと比較して約33倍のトレーニングを加速します。
CLIPに関連する計算障壁を減らすことで、この分野、特に学者からより多くの研究を刺激したいと思っています。
私たちのコードはhttps://github.com/UCSC-VLAA/CLIPAで公開されています。
関連論文リスト
- TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - TinyCLIP: CLIP Distillation via Affinity Mimicking and Weight
Inheritance [97.01406871579525]
大規模言語画像事前学習モデルのための新しいクロスモーダル蒸留法TinyCLIPを提案する。
また、TinyCLIPは、トレーニング済みのCLIP ViT-B/32のサイズを50%削減し、ゼロショット性能を同等に維持できることを示した。
YFCC-15MでトレーニングしたTinyCLIP ViT-8M/16は、ImageNetで41.1%という印象的なゼロショットトップ1の精度を達成した。
論文 参考訳(メタデータ) (2023-09-21T17:59:53Z) - CLIPA-v2: Scaling CLIP Training with 81.1% Zero-shot ImageNet Accuracy
within a \$10,000 Budget; An Extra \$4,000 Unlocks 81.8% Accuracy [20.495259430916814]
CLIPトレーニングの逆スケーリング法であるCLIPA-v2を提案する。
実験を13B画像テキストペアでH/14モデルに拡張する。
我々のモデルは、印象的なゼロショット画像Netの精度81.1%を達成する。
論文 参考訳(メタデータ) (2023-06-27T17:51:06Z) - Improving CLIP Training with Language Rewrites [57.935517901210225]
言語書き換えによるCLIPトレーニングを強化するために,Language augmented CLIP (LaCLIP)を導入した。
また,LaCLIPは,学習中に計算やメモリオーバーヘッドを伴わずに転送性能を大幅に向上することを示した。
ImageNetゼロショット精度では、LaCLIPはCC12MでCLIPを8.2%、LAION-400Mで2.4%上回る。
論文 参考訳(メタデータ) (2023-05-31T17:59:04Z) - RECLIP: Resource-efficient CLIP by Training with Small Images [44.7490122024181]
私たちは、CLIP(Contrastive Language Image Pretraining)の計算資源フットプリントを最小化する簡単な方法であるRECLIPを提案する。
コンピュータビジョンにおける粗粒化の概念に触発されて、我々は小さな画像を活用して、大規模言語の監督から効率的に学習する。
論文 参考訳(メタデータ) (2023-04-12T17:59:58Z) - Open-VCLIP: Transforming CLIP to an Open-vocabulary Video Model via
Interpolated Weight Optimization [82.75718846187685]
我々は、CLIPを強力なゼロショットビデオ分類器に変換する、シンプルで効果的なアプローチであるOpen-VCLIPを紹介する。
我々は,Open-VCLIPのトレーニングが,履歴データゼロの連続学習と等価であることを示す。
特に、UCF、HMDB、Kinetics-600データセットで87.9%、58.3%、81.1%のゼロショット精度を達成した。
論文 参考訳(メタデータ) (2023-02-01T17:44:17Z) - Attentive Mask CLIP [48.206857783966996]
テキスト記述に高い意味的相関を持つトークンを保持するCLIPトレーニングのための注意的トークン除去手法を提案する。
提案手法は、ImageNet-1Kゼロショット分類で43.9%の精度、62.7/42.1ドルの精度、38.0/23.2ドルのI2T/T2I検索精度を実現している。
論文 参考訳(メタデータ) (2022-12-16T18:59:12Z) - ZegCLIP: Towards Adapting CLIP for Zero-shot Semantic Segmentation [35.60888272729273]
近年、CLIPは2段階のスキームを用いて画素レベルのゼロショット学習タスクに適用されている。
このような方式は有効であるが、2つの画像エンコーダが必要であり、1つは提案生成用、もう1つはCLIP用であり、複雑なパイプラインと高い計算コストをもたらす。
本稿では,CLIPのゼロショット予測能力を画像からピクセルレベルまで直接拡張する,シンプルかつ効率的なワンステージソリューションを提案する。
論文 参考訳(メタデータ) (2022-12-07T12:05:00Z) - Supervision Exists Everywhere: A Data Efficient Contrastive
Language-Image Pre-training Paradigm [109.0573737034428]
大規模コントラスト言語-画像事前訓練(CLIP)は、その印象的なゼロショット認識能力と下流タスクへの優れた転送性により、前例のない注目を集めている。
本研究は,この制限を緩和する新たなトレーニングパラダイムであるData efficient CLIP (DeCLIP)を提案する。
画像とテキストのペア間の広範な監視を慎重に活用することにより、De-CLIPは汎用的な視覚的特徴をより効率的に学習できることを実証する。
論文 参考訳(メタデータ) (2021-10-11T12:17:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。