論文の概要: EVA-CLIP: Improved Training Techniques for CLIP at Scale
- arxiv url: http://arxiv.org/abs/2303.15389v1
- Date: Mon, 27 Mar 2023 17:02:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 14:17:50.092243
- Title: EVA-CLIP: Improved Training Techniques for CLIP at Scale
- Title(参考訳): EVA-CLIP:CLIPの大規模訓練技術の改善
- Authors: Quan Sun, Yuxin Fang, Ledell Wu, Xinlong Wang, Yue Cao
- Abstract要約: 本稿では,CLIPトレーニングの効率と有効性を向上する一連のモデルであるEVA-CLIPを提案する。
提案手法は, 表現学習, 最適化, 拡張のための新しい手法を取り入れ, EVA-CLIPによる性能向上を実現する。
- 参考スコア(独自算出の注目度): 20.145062325090286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive language-image pre-training, CLIP for short, has gained
increasing attention for its potential in various scenarios. In this paper, we
propose EVA-CLIP, a series of models that significantly improve the efficiency
and effectiveness of CLIP training. Our approach incorporates new techniques
for representation learning, optimization, and augmentation, enabling EVA-CLIP
to achieve superior performance compared to previous CLIP models with the same
number of parameters but significantly smaller training costs. Notably, our
largest 5.0B-parameter EVA-02-CLIP-E/14+ with only 9 billion seen samples
achieves 82.0 zero-shot top-1 accuracy on ImageNet-1K val. A smaller
EVA-02-CLIP-L/14+ with only 430 million parameters and 6 billion seen samples
achieves 80.4 zero-shot top-1 accuracy on ImageNet-1K val. To facilitate open
access and open research, we release the complete suite of EVA-CLIP to the
community at https://github.com/baaivision/EVA/tree/master/EVA-CLIP.
- Abstract(参考訳): 対照的な言語イメージ事前トレーニング(略してCLIP)は、さまざまなシナリオでその可能性に注目を集めている。
本稿では,CLIPトレーニングの効率と有効性を向上する一連のモデルであるEVA-CLIPを提案する。
提案手法では, 表現学習, 最適化, 拡張のための新しい手法を取り入れ, EVA-CLIP は, パラメータが同じだがトレーニングコストが著しく少ない以前のCLIP モデルと比較して, 優れた性能を実現することができる。
特に、90億サンプルしか見ていない5.0BパラメータのEVA-02-CLIP-E/14+は、ImageNet-1K valで82.0ゼロショットトップ-1の精度を実現しています。
EVA-02-CLIP-L/14+は4億3000万のパラメータと60億のサンプルで、ImageNet-1K valで80.4のゼロショットトップ-1の精度を実現している。
オープンアクセスとオープンリサーチを容易にするため、コミュニティにEVA-CLIPの完全なスイートをhttps://github.com/baaivision/EVA/tree/master/EVA-CLIPでリリースする。
関連論文リスト
- FairerCLIP: Debiasing CLIP's Zero-Shot Predictions using Functions in RKHSs [24.991684983495542]
本稿では,CLIPのゼロショット予測をより公平かつ堅牢に行うための一般手法であるFairerCLIPを提案する。
ヒルベルト核空間(RKHS)の再生において,CLIPのイメージとテキスト表現を両立させる問題を定式化する。
論文 参考訳(メタデータ) (2024-03-22T19:41:26Z) - EVA-CLIP-18B: Scaling CLIP to 18 Billion Parameters [25.729577042823514]
提案するEVA-CLIP-18Bは,これまでで最大かつ最強のオープンソースCLIPモデルであり,パラメータは18ビリオンである。
EVA-CLIP-18Bは、わずか6ビリオンのトレーニングサンプルしか見つからず、27の広く認識されている画像分類ベンチマークで平均80.7%のゼロショットトップ1の精度を達成している。
論文 参考訳(メタデータ) (2024-02-06T18:59:48Z) - TinyCLIP: CLIP Distillation via Affinity Mimicking and Weight
Inheritance [97.01406871579525]
大規模言語画像事前学習モデルのための新しいクロスモーダル蒸留法TinyCLIPを提案する。
また、TinyCLIPは、トレーニング済みのCLIP ViT-B/32のサイズを50%削減し、ゼロショット性能を同等に維持できることを示した。
YFCC-15MでトレーニングしたTinyCLIP ViT-8M/16は、ImageNetで41.1%という印象的なゼロショットトップ1の精度を達成した。
論文 参考訳(メタデータ) (2023-09-21T17:59:53Z) - EVA-02: A Visual Representation for Neon Genesis [49.90565085768437]
EVA-02はトランスフォーマーをベースとした次世代の視覚表現で、頑丈で堅牢な言語対応の視覚機能を再構築するために事前訓練されている。
モデルサイズは6Mから304Mのパラメータで、4種類のEVA-02が提供されています。
論文 参考訳(メタデータ) (2023-03-20T17:59:59Z) - Open-VCLIP: Transforming CLIP to an Open-vocabulary Video Model via
Interpolated Weight Optimization [82.75718846187685]
我々は、CLIPを強力なゼロショットビデオ分類器に変換する、シンプルで効果的なアプローチであるOpen-VCLIPを紹介する。
我々は,Open-VCLIPのトレーニングが,履歴データゼロの連続学習と等価であることを示す。
特に、UCF、HMDB、Kinetics-600データセットで87.9%、58.3%、81.1%のゼロショット精度を達成した。
論文 参考訳(メタデータ) (2023-02-01T17:44:17Z) - CLIP Itself is a Strong Fine-tuner: Achieving 85.7% and 88.0% Top-1
Accuracy with ViT-B and ViT-L on ImageNet [139.56863124214905]
CLIPの微調整性能はかなり過小評価されている。
具体的には、CLIP ViT-Base/16とCLIP ViT-Large/14は、ImageNet-1KデータセットのTop-1精度を85.7%、88.0%微調整することができる。
論文 参考訳(メタデータ) (2022-12-12T18:59:59Z) - CLIP-TD: CLIP Targeted Distillation for Vision-Language Tasks [85.37552507367175]
対照的に、CLIP (Contrastive Language-image Pretraining) は、視覚と言語モダリティを統合埋め込み空間にリンクする。
本稿では,CLIP-TD (CLIP Targeted Distillation) という手法を提案する。
論文 参考訳(メタデータ) (2022-01-15T01:54:01Z) - Supervision Exists Everywhere: A Data Efficient Contrastive
Language-Image Pre-training Paradigm [109.0573737034428]
大規模コントラスト言語-画像事前訓練(CLIP)は、その印象的なゼロショット認識能力と下流タスクへの優れた転送性により、前例のない注目を集めている。
本研究は,この制限を緩和する新たなトレーニングパラダイムであるData efficient CLIP (DeCLIP)を提案する。
画像とテキストのペア間の広範な監視を慎重に活用することにより、De-CLIPは汎用的な視覚的特徴をより効率的に学習できることを実証する。
論文 参考訳(メタデータ) (2021-10-11T12:17:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。