論文の概要: EVA-CLIP-18B: Scaling CLIP to 18 Billion Parameters
- arxiv url: http://arxiv.org/abs/2402.04252v1
- Date: Tue, 6 Feb 2024 18:59:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 13:31:37.076487
- Title: EVA-CLIP-18B: Scaling CLIP to 18 Billion Parameters
- Title(参考訳): EVA-CLIP-18B:CLIPを18億パラメータに拡張
- Authors: Quan Sun, Jinsheng Wang, Qiying Yu, Yufeng Cui, Fan Zhang, Xiaosong
Zhang, Xinlong Wang
- Abstract要約: 提案するEVA-CLIP-18Bは,これまでで最大かつ最強のオープンソースCLIPモデルであり,パラメータは18ビリオンである。
EVA-CLIP-18Bは、わずか6ビリオンのトレーニングサンプルしか見つからず、27の広く認識されている画像分類ベンチマークで平均80.7%のゼロショットトップ1の精度を達成している。
- 参考スコア(独自算出の注目度): 25.729577042823514
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling up contrastive language-image pretraining (CLIP) is critical for
empowering both vision and multimodal models. We present EVA-CLIP-18B, the
largest and most powerful open-source CLIP model to date, with 18-billion
parameters. With only 6-billion training samples seen, EVA-CLIP-18B achieves an
exceptional 80.7% zero-shot top-1 accuracy averaged across 27 widely recognized
image classification benchmarks, outperforming its forerunner EVA-CLIP
(5-billion parameters) and other open-source CLIP models by a large margin.
Remarkably, we observe a consistent performance improvement with the model size
scaling of EVA-CLIP, despite maintaining a constant training dataset of
2-billion image-text pairs from LAION-2B and COYO-700M. This dataset is openly
available and much smaller than the in-house datasets (e.g., DFN-5B, WebLI-10B)
employed in other state-of-the-art CLIP models. EVA-CLIP-18B demonstrates the
potential of EVA-style weak-to-strong visual model scaling. With our model
weights made publicly available, we hope to facilitate future research in
vision and multimodal foundation models.
- Abstract(参考訳): 対照的な言語イメージ事前学習(CLIP)のスケールアップは、視覚モデルとマルチモーダルモデルの両方の強化に不可欠である。
現在までに最大かつ最強のオープンソースCLIPモデルであるEVA-CLIP-18Bについて述べる。
EVA-CLIP-18Bは、わずか6ビリオンのトレーニングサンプルで、27の広く認識されている画像分類ベンチマークで平均80.7%のゼロショットトップ-1の精度を達成し、前回のEVA-CLIP(5ビリオンパラメータ)および他のオープンソースCLIPモデルよりも大きなマージンを達成している。
LAION-2BとCOYO-700Mの2億画素画像テキストペアのトレーニングデータセットを一定に維持しながら,EVA-CLIPのモデルサイズスケーリングによる一貫した性能向上を観察した。
このデータセットは公開されており、他の最先端のCLIPモデルで使用される社内データセット(DFN-5B、WebLI-10Bなど)よりもはるかに小さい。
EVA-CLIP-18Bは、EVAスタイルの弱い視覚モデルスケーリングの可能性を示す。
モデルウェイトを公開することにより、ビジョンモデルとマルチモーダル基盤モデルの将来的な研究を促進することを願っている。
関連論文リスト
- OpenVLA: An Open-Source Vision-Language-Action Model [131.74098076670103]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。
OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。
モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文 参考訳(メタデータ) (2024-06-13T15:46:55Z) - RLAIF-V: Aligning MLLMs through Open-Source AI Feedback for Super GPT-4V Trustworthiness [94.03511733306296]
我々は,MLLMを超GPT-4V信頼性のための完全なオープンソースパラダイムに整合させるフレームワークであるRLAIF-Vを紹介する。
RLAIF-Vは、高品質なフィードバックデータとオンラインフィードバック学習アルゴリズムを含む、2つの観点から、オープンソースフィードバックを最大限活用する。
実験により、RLAIF-Vは、他のタスクのパフォーマンスを犠牲にすることなく、モデルの信頼性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-05-27T14:37:01Z) - ECLIPSE: A Resource-Efficient Text-to-Image Prior for Image Generations [67.25974711647481]
テキスト・トゥ・イメージ(T2I)拡散モデル(特にunCLIPモデル)は、様々なT2Iベンチマークで最先端(SOTA)性能を達成する。
本稿では,パラメータとデータ効率を両立する新しいコントラスト学習手法であるECLIPSEを紹介する。
ECLIPSEの事前トレーニングは、パラメータの3.3%に過ぎず、わずか2.8%のデータに基づいてトレーニングされ、平均71.6%の選好スコアでベースラインのT2Iを上回ります。
論文 参考訳(メタデータ) (2023-12-07T19:32:39Z) - MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training [17.158498267947877]
ランタイム性能に最適化された画像テキストモデルの新たなファミリであるMobileCLIPを紹介する。
MobileCLIPは、画像キャプションモデルと強力なCLIPエンコーダのアンサンブルからの知識伝達を使用して、効率的なモデルの精度を向上させる。
我々のアプローチは、強化データセットに付加的な知識を格納することで、列車時の計算オーバーヘッドを回避する。
論文 参考訳(メタデータ) (2023-11-28T18:55:42Z) - EVA-CLIP: Improved Training Techniques for CLIP at Scale [20.145062325090286]
本稿では,CLIPトレーニングの効率と有効性を向上する一連のモデルであるEVA-CLIPを提案する。
提案手法は, 表現学習, 最適化, 拡張のための新しい手法を取り入れ, EVA-CLIPによる性能向上を実現する。
論文 参考訳(メタデータ) (2023-03-27T17:02:21Z) - EVA-02: A Visual Representation for Neon Genesis [49.90565085768437]
EVA-02はトランスフォーマーをベースとした次世代の視覚表現で、頑丈で堅牢な言語対応の視覚機能を再構築するために事前訓練されている。
モデルサイズは6Mから304Mのパラメータで、4種類のEVA-02が提供されています。
論文 参考訳(メタデータ) (2023-03-20T17:59:59Z) - Face Recognition in the age of CLIP & Billion image datasets [0.0]
種々のCLIPモデルの性能をゼロショット顔認識器として評価する。
また,データ中毒に対するCLIPモデルの堅牢性についても検討した。
論文 参考訳(メタデータ) (2023-01-18T05:34:57Z) - Rethinking Mobile Block for Efficient Attention-based Models [60.0312591342016]
本稿では、パラメータ、FLOP、性能をトレードオフしながら、高密度予測のための現代的で効率的で軽量なモデルを開発することに焦点を当てる。
Inverted Residual Block (IRB) は軽量CNNの基盤として機能するが、注目に基づく研究ではその存在は認められていない。
我々はCNNベースのIRBをアテンションベースモデルに拡張し、軽量モデル設計のためのMMB(One-Residual Meta Mobile Block)を抽象化する。
論文 参考訳(メタデータ) (2023-01-03T15:11:41Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。