論文の概要: EVA-CLIP-18B: Scaling CLIP to 18 Billion Parameters
- arxiv url: http://arxiv.org/abs/2402.04252v1
- Date: Tue, 6 Feb 2024 18:59:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 13:31:37.076487
- Title: EVA-CLIP-18B: Scaling CLIP to 18 Billion Parameters
- Title(参考訳): EVA-CLIP-18B:CLIPを18億パラメータに拡張
- Authors: Quan Sun, Jinsheng Wang, Qiying Yu, Yufeng Cui, Fan Zhang, Xiaosong
Zhang, Xinlong Wang
- Abstract要約: 提案するEVA-CLIP-18Bは,これまでで最大かつ最強のオープンソースCLIPモデルであり,パラメータは18ビリオンである。
EVA-CLIP-18Bは、わずか6ビリオンのトレーニングサンプルしか見つからず、27の広く認識されている画像分類ベンチマークで平均80.7%のゼロショットトップ1の精度を達成している。
- 参考スコア(独自算出の注目度): 25.729577042823514
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling up contrastive language-image pretraining (CLIP) is critical for
empowering both vision and multimodal models. We present EVA-CLIP-18B, the
largest and most powerful open-source CLIP model to date, with 18-billion
parameters. With only 6-billion training samples seen, EVA-CLIP-18B achieves an
exceptional 80.7% zero-shot top-1 accuracy averaged across 27 widely recognized
image classification benchmarks, outperforming its forerunner EVA-CLIP
(5-billion parameters) and other open-source CLIP models by a large margin.
Remarkably, we observe a consistent performance improvement with the model size
scaling of EVA-CLIP, despite maintaining a constant training dataset of
2-billion image-text pairs from LAION-2B and COYO-700M. This dataset is openly
available and much smaller than the in-house datasets (e.g., DFN-5B, WebLI-10B)
employed in other state-of-the-art CLIP models. EVA-CLIP-18B demonstrates the
potential of EVA-style weak-to-strong visual model scaling. With our model
weights made publicly available, we hope to facilitate future research in
vision and multimodal foundation models.
- Abstract(参考訳): 対照的な言語イメージ事前学習(CLIP)のスケールアップは、視覚モデルとマルチモーダルモデルの両方の強化に不可欠である。
現在までに最大かつ最強のオープンソースCLIPモデルであるEVA-CLIP-18Bについて述べる。
EVA-CLIP-18Bは、わずか6ビリオンのトレーニングサンプルで、27の広く認識されている画像分類ベンチマークで平均80.7%のゼロショットトップ-1の精度を達成し、前回のEVA-CLIP(5ビリオンパラメータ)および他のオープンソースCLIPモデルよりも大きなマージンを達成している。
LAION-2BとCOYO-700Mの2億画素画像テキストペアのトレーニングデータセットを一定に維持しながら,EVA-CLIPのモデルサイズスケーリングによる一貫した性能向上を観察した。
このデータセットは公開されており、他の最先端のCLIPモデルで使用される社内データセット(DFN-5B、WebLI-10Bなど)よりもはるかに小さい。
EVA-CLIP-18Bは、EVAスタイルの弱い視覚モデルスケーリングの可能性を示す。
モデルウェイトを公開することにより、ビジョンモデルとマルチモーダル基盤モデルの将来的な研究を促進することを願っている。
関連論文リスト
- ECLIPSE: A Resource-Efficient Text-to-Image Prior for Image Generations [67.25974711647481]
テキスト・トゥ・イメージ(T2I)拡散モデル(特にunCLIPモデル)は、様々なT2Iベンチマークで最先端(SOTA)性能を達成する。
本稿では,パラメータとデータ効率を両立する新しいコントラスト学習手法であるECLIPSEを紹介する。
ECLIPSEの事前トレーニングは、パラメータの3.3%に過ぎず、わずか2.8%のデータに基づいてトレーニングされ、平均71.6%の選好スコアでベースラインのT2Iを上回ります。
論文 参考訳(メタデータ) (2023-12-07T19:32:39Z) - EVA-CLIP: Improved Training Techniques for CLIP at Scale [20.145062325090286]
本稿では,CLIPトレーニングの効率と有効性を向上する一連のモデルであるEVA-CLIPを提案する。
提案手法は, 表現学習, 最適化, 拡張のための新しい手法を取り入れ, EVA-CLIPによる性能向上を実現する。
論文 参考訳(メタデータ) (2023-03-27T17:02:21Z) - EVA-02: A Visual Representation for Neon Genesis [49.90565085768437]
EVA-02はトランスフォーマーをベースとした次世代の視覚表現で、頑丈で堅牢な言語対応の視覚機能を再構築するために事前訓練されている。
モデルサイズは6Mから304Mのパラメータで、4種類のEVA-02が提供されています。
論文 参考訳(メタデータ) (2023-03-20T17:59:59Z) - Face Recognition in the age of CLIP & Billion image datasets [0.0]
種々のCLIPモデルの性能をゼロショット顔認識器として評価する。
また,データ中毒に対するCLIPモデルの堅牢性についても検討した。
論文 参考訳(メタデータ) (2023-01-18T05:34:57Z) - Rethinking Mobile Block for Efficient Attention-based Models [60.0312591342016]
本稿では、パラメータ、FLOP、性能をトレードオフしながら、高密度予測のための現代的で効率的で軽量なモデルを開発することに焦点を当てる。
Inverted Residual Block (IRB) は軽量CNNの基盤として機能するが、注目に基づく研究ではその存在は認められていない。
我々はCNNベースのIRBをアテンションベースモデルに拡張し、軽量モデル設計のためのMMB(One-Residual Meta Mobile Block)を抽象化する。
論文 参考訳(メタデータ) (2023-01-03T15:11:41Z) - CLIP Itself is a Strong Fine-tuner: Achieving 85.7% and 88.0% Top-1
Accuracy with ViT-B and ViT-L on ImageNet [139.56863124214905]
CLIPの微調整性能はかなり過小評価されている。
具体的には、CLIP ViT-Base/16とCLIP ViT-Large/14は、ImageNet-1KデータセットのTop-1精度を85.7%、88.0%微調整することができる。
論文 参考訳(メタデータ) (2022-12-12T18:59:59Z) - CAE v2: Context Autoencoder with CLIP Target [63.61868058214267]
マスク付き画像モデリング(MIM)は、画像パッチのマスキングと再構成によって視覚表現を学習する。
再建管理をCLIP表現に適用することはMIMに有効であることが証明されている。
CLIPをターゲットとしたMIMの精製戦略を検討するため,MIMにおける2つの重要な要素,すなわち,監督位置とマスク比について検討した。
論文 参考訳(メタデータ) (2022-11-17T18:58:33Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。