Fugu-MT 論文翻訳(概要): An Inverse Scaling Law for CLIP Training

論文の概要: An Inverse Scaling Law for CLIP Training

arxiv url: http://arxiv.org/abs/2305.07017v1
Date: Thu, 11 May 2023 17:56:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-12 13:35:36.729592
Title: An Inverse Scaling Law for CLIP Training
Title（参考訳）: CLIPトレーニングにおける逆スケーリング法
Authors: Xianhang Li, Zeyu Wang, Cihang Xie
Abstract要約: 私たちは、CLIPトレーニングに逆スケーリング法が存在するという驚くべき発見を提示する。学術的なリソースを使っても、CLIPのトレーニングに成功しています。
参考スコア（独自算出の注目度）: 20.495259430916814
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: CLIP, the first foundation model that connects images and text, has enabled many recent breakthroughs in computer vision. However, its associated training cost is prohibitively high, imposing a significant barrier to its widespread exploration. In this paper, we present a surprising finding that there exists an inverse scaling law for CLIP training, whereby the larger the image/text encoders used, the shorter the sequence length of image/text tokens that can be applied in training. Moreover, we showcase that the strategy for reducing image/text token length plays a crucial role in determining the quality of this scaling law. As a result of this finding, we are able to successfully train CLIP even by using academic resources. For example, on an A100 eight-GPU server, our CLIP models achieve zero-shot top-1 ImageNet accuracies of 63.2% in ~2 days, 67.8% in ~3 days, and 69.3% in ~4 days. By reducing the computation barrier associated with CLIP, we hope to inspire more research in this field, particularly from academics. Our code is available at https://github.com/UCSC-VLAA/CLIPA.
Abstract（参考訳）: 画像とテキストを接続する最初の基盤モデルであるCLIPは、コンピュータビジョンにおける最近のブレークスルーを可能にした。しかし、それに伴う訓練費は禁止的に高く、広範な探検の障壁となっている。本稿では,CLIPトレーニングの逆スケーリング法が存在し,画像/テキストエンコーダが大きいほど,トレーニングに応用可能な画像/テキストトークンのシーケンス長が短くなる,という驚くべき発見を示す。さらに,画像/テキストトークン長の削減戦略が,このスケーリング則の品質を決定する上で重要な役割を担っていることを示す。この結果,学術的資源を用いてもCLIPのトレーニングを成功させることができた。例えば、a100 8gpuサーバでは、クリップモデルは2日間で63.2%、3日間で67.8%、4日間で69.3%というゼロショットトップ1イメージネットの精度を達成しています。 CLIPに関連する計算障壁を減らすことで、この分野、特に学者からより多くの研究を刺激したいと思っています。私たちのコードはhttps://github.com/UCSC-VLAA/CLIPAで公開されています。

関連論文リスト

TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文参考訳（メタデータ） (2024-11-04T19:24:59Z)
TinyCLIP: CLIP Distillation via Affinity Mimicking and Weight Inheritance [97.01406871579525]
大規模言語画像事前学習モデルのための新しいクロスモーダル蒸留法TinyCLIPを提案する。また、TinyCLIPは、トレーニング済みのCLIP ViT-B/32のサイズを50%削減し、ゼロショット性能を同等に維持できることを示した。 YFCC-15MでトレーニングしたTinyCLIP ViT-8M/16は、ImageNetで41.1%という印象的なゼロショットトップ1の精度を達成した。
論文参考訳（メタデータ） (2023-09-21T17:59:53Z)
CLIPA-v2: Scaling CLIP Training with 81.1% Zero-shot ImageNet Accuracy within a \$10,000 Budget; An Extra \$4,000 Unlocks 81.8% Accuracy [20.495259430916814]
CLIPトレーニングの逆スケーリング法であるCLIPA-v2を提案する。実験を13B画像テキストペアでH/14モデルに拡張する。我々のモデルは、印象的なゼロショット画像Netの精度81.1%を達成する。
論文参考訳（メタデータ） (2023-06-27T17:51:06Z)
Improving CLIP Training with Language Rewrites [57.935517901210225]
言語書き換えによるCLIPトレーニングを強化するために,Language augmented CLIP (LaCLIP)を導入した。また,LaCLIPは,学習中に計算やメモリオーバーヘッドを伴わずに転送性能を大幅に向上することを示した。 ImageNetゼロショット精度では、LaCLIPはCC12MでCLIPを8.2%、LAION-400Mで2.4%上回る。
論文参考訳（メタデータ） (2023-05-31T17:59:04Z)
Getting More Juice Out of Your Data: Hard Pair Refinement Enhances Visual-Language Models Without Extra Data [122.282521548393]
コントラスト言語-画像事前学習 (CLIP) は, クロスモーダルな画像-テキスト表現学習の標準となっている。 HELIPは、CLIPモデルを改善するためのコスト効率のよい戦略であり、継続的なトレーニングにおいて既存のデータセット内の挑戦的なテキストイメージペアを利用することで、CLIPモデルを改善する。
論文参考訳（メタデータ） (2023-05-09T07:00:17Z)
RECLIP: Resource-efficient CLIP by Training with Small Images [44.7490122024181]
私たちは、CLIP(Contrastive Language Image Pretraining)の計算資源フットプリントを最小化する簡単な方法であるRECLIPを提案する。コンピュータビジョンにおける粗粒化の概念に触発されて、我々は小さな画像を活用して、大規模言語の監督から効率的に学習する。
論文参考訳（メタデータ） (2023-04-12T17:59:58Z)
Open-VCLIP: Transforming CLIP to an Open-vocabulary Video Model via Interpolated Weight Optimization [82.75718846187685]
我々は、CLIPを強力なゼロショットビデオ分類器に変換する、シンプルで効果的なアプローチであるOpen-VCLIPを紹介する。我々は,Open-VCLIPのトレーニングが,履歴データゼロの連続学習と等価であることを示す。特に、UCF、HMDB、Kinetics-600データセットで87.9%、58.3%、81.1%のゼロショット精度を達成した。
論文参考訳（メタデータ） (2023-02-01T17:44:17Z)
Attentive Mask CLIP [48.206857783966996]
テキスト記述に高い意味的相関を持つトークンを保持するCLIPトレーニングのための注意的トークン除去手法を提案する。提案手法は、ImageNet-1Kゼロショット分類で43.9%の精度、62.7/42.1ドルの精度、38.0/23.2ドルのI2T/T2I検索精度を実現している。
論文参考訳（メタデータ） (2022-12-16T18:59:12Z)
ZegCLIP: Towards Adapting CLIP for Zero-shot Semantic Segmentation [35.60888272729273]
近年、CLIPは2段階のスキームを用いて画素レベルのゼロショット学習タスクに適用されている。このような方式は有効であるが、2つの画像エンコーダが必要であり、1つは提案生成用、もう1つはCLIP用であり、複雑なパイプラインと高い計算コストをもたらす。本稿では,CLIPのゼロショット予測能力を画像からピクセルレベルまで直接拡張する,シンプルかつ効率的なワンステージソリューションを提案する。
論文参考訳（メタデータ） (2022-12-07T12:05:00Z)
Supervision Exists Everywhere: A Data Efficient Contrastive Language-Image Pre-training Paradigm [109.0573737034428]
大規模コントラスト言語-画像事前訓練(CLIP)は、その印象的なゼロショット認識能力と下流タスクへの優れた転送性により、前例のない注目を集めている。本研究は,この制限を緩和する新たなトレーニングパラダイムであるData efficient CLIP (DeCLIP)を提案する。画像とテキストのペア間の広範な監視を慎重に活用することにより、De-CLIPは汎用的な視覚的特徴をより効率的に学習できることを実証する。
論文参考訳（メタデータ） (2021-10-11T12:17:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。