論文の概要: An Inverse Scaling Law for CLIP Training
- arxiv url: http://arxiv.org/abs/2305.07017v1
- Date: Thu, 11 May 2023 17:56:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 13:35:36.729592
- Title: An Inverse Scaling Law for CLIP Training
- Title(参考訳): CLIPトレーニングにおける逆スケーリング法
- Authors: Xianhang Li, Zeyu Wang, Cihang Xie
- Abstract要約: 私たちは、CLIPトレーニングに逆スケーリング法が存在するという驚くべき発見を提示する。
学術的なリソースを使っても、CLIPのトレーニングに成功しています。
- 参考スコア(独自算出の注目度): 20.495259430916814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: CLIP, the first foundation model that connects images and text, has enabled
many recent breakthroughs in computer vision. However, its associated training
cost is prohibitively high, imposing a significant barrier to its widespread
exploration. In this paper, we present a surprising finding that there exists
an inverse scaling law for CLIP training, whereby the larger the image/text
encoders used, the shorter the sequence length of image/text tokens that can be
applied in training. Moreover, we showcase that the strategy for reducing
image/text token length plays a crucial role in determining the quality of this
scaling law.
As a result of this finding, we are able to successfully train CLIP even by
using academic resources. For example, on an A100 eight-GPU server, our CLIP
models achieve zero-shot top-1 ImageNet accuracies of 63.2% in ~2 days, 67.8%
in ~3 days, and 69.3% in ~4 days. By reducing the computation barrier
associated with CLIP, we hope to inspire more research in this field,
particularly from academics. Our code is available at
https://github.com/UCSC-VLAA/CLIPA.
- Abstract(参考訳): 画像とテキストを接続する最初の基盤モデルであるCLIPは、コンピュータビジョンにおける最近のブレークスルーを可能にした。
しかし、それに伴う訓練費は禁止的に高く、広範な探検の障壁となっている。
本稿では,CLIPトレーニングの逆スケーリング法が存在し,画像/テキストエンコーダが大きいほど,トレーニングに応用可能な画像/テキストトークンのシーケンス長が短くなる,という驚くべき発見を示す。
さらに,画像/テキストトークン長の削減戦略が,このスケーリング則の品質を決定する上で重要な役割を担っていることを示す。
この結果,学術的資源を用いてもCLIPのトレーニングを成功させることができた。
例えば、a100 8gpuサーバでは、クリップモデルは2日間で63.2%、3日間で67.8%、4日間で69.3%というゼロショットトップ1イメージネットの精度を達成しています。
CLIPに関連する計算障壁を減らすことで、この分野、特に学者からより多くの研究を刺激したいと思っています。
私たちのコードはhttps://github.com/UCSC-VLAA/CLIPAで公開されています。
関連論文リスト
- TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - TinyCLIP: CLIP Distillation via Affinity Mimicking and Weight
Inheritance [97.01406871579525]
大規模言語画像事前学習モデルのための新しいクロスモーダル蒸留法TinyCLIPを提案する。
また、TinyCLIPは、トレーニング済みのCLIP ViT-B/32のサイズを50%削減し、ゼロショット性能を同等に維持できることを示した。
YFCC-15MでトレーニングしたTinyCLIP ViT-8M/16は、ImageNetで41.1%という印象的なゼロショットトップ1の精度を達成した。
論文 参考訳(メタデータ) (2023-09-21T17:59:53Z) - CLIPA-v2: Scaling CLIP Training with 81.1% Zero-shot ImageNet Accuracy
within a \$10,000 Budget; An Extra \$4,000 Unlocks 81.8% Accuracy [20.495259430916814]
CLIPトレーニングの逆スケーリング法であるCLIPA-v2を提案する。
実験を13B画像テキストペアでH/14モデルに拡張する。
我々のモデルは、印象的なゼロショット画像Netの精度81.1%を達成する。
論文 参考訳(メタデータ) (2023-06-27T17:51:06Z) - Improving CLIP Training with Language Rewrites [57.935517901210225]
言語書き換えによるCLIPトレーニングを強化するために,Language augmented CLIP (LaCLIP)を導入した。
また,LaCLIPは,学習中に計算やメモリオーバーヘッドを伴わずに転送性能を大幅に向上することを示した。
ImageNetゼロショット精度では、LaCLIPはCC12MでCLIPを8.2%、LAION-400Mで2.4%上回る。
論文 参考訳(メタデータ) (2023-05-31T17:59:04Z) - RECLIP: Resource-efficient CLIP by Training with Small Images [44.7490122024181]
私たちは、CLIP(Contrastive Language Image Pretraining)の計算資源フットプリントを最小化する簡単な方法であるRECLIPを提案する。
コンピュータビジョンにおける粗粒化の概念に触発されて、我々は小さな画像を活用して、大規模言語の監督から効率的に学習する。
論文 参考訳(メタデータ) (2023-04-12T17:59:58Z) - Open-VCLIP: Transforming CLIP to an Open-vocabulary Video Model via
Interpolated Weight Optimization [82.75718846187685]
我々は、CLIPを強力なゼロショットビデオ分類器に変換する、シンプルで効果的なアプローチであるOpen-VCLIPを紹介する。
我々は,Open-VCLIPのトレーニングが,履歴データゼロの連続学習と等価であることを示す。
特に、UCF、HMDB、Kinetics-600データセットで87.9%、58.3%、81.1%のゼロショット精度を達成した。
論文 参考訳(メタデータ) (2023-02-01T17:44:17Z) - Attentive Mask CLIP [48.206857783966996]
テキスト記述に高い意味的相関を持つトークンを保持するCLIPトレーニングのための注意的トークン除去手法を提案する。
提案手法は、ImageNet-1Kゼロショット分類で43.9%の精度、62.7/42.1ドルの精度、38.0/23.2ドルのI2T/T2I検索精度を実現している。
論文 参考訳(メタデータ) (2022-12-16T18:59:12Z) - ZegCLIP: Towards Adapting CLIP for Zero-shot Semantic Segmentation [35.60888272729273]
近年、CLIPは2段階のスキームを用いて画素レベルのゼロショット学習タスクに適用されている。
このような方式は有効であるが、2つの画像エンコーダが必要であり、1つは提案生成用、もう1つはCLIP用であり、複雑なパイプラインと高い計算コストをもたらす。
本稿では,CLIPのゼロショット予測能力を画像からピクセルレベルまで直接拡張する,シンプルかつ効率的なワンステージソリューションを提案する。
論文 参考訳(メタデータ) (2022-12-07T12:05:00Z) - Supervision Exists Everywhere: A Data Efficient Contrastive
Language-Image Pre-training Paradigm [109.0573737034428]
大規模コントラスト言語-画像事前訓練(CLIP)は、その印象的なゼロショット認識能力と下流タスクへの優れた転送性により、前例のない注目を集めている。
本研究は,この制限を緩和する新たなトレーニングパラダイムであるData efficient CLIP (DeCLIP)を提案する。
画像とテキストのペア間の広範な監視を慎重に活用することにより、De-CLIPは汎用的な視覚的特徴をより効率的に学習できることを実証する。
論文 参考訳(メタデータ) (2021-10-11T12:17:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。