論文の概要: EVA-02: A Visual Representation for Neon Genesis
- arxiv url: http://arxiv.org/abs/2303.11331v2
- Date: Wed, 22 Mar 2023 14:10:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-23 11:02:04.219855
- Title: EVA-02: A Visual Representation for Neon Genesis
- Title(参考訳): EVA-02:ネオン発生の視覚的表現
- Authors: Yuxin Fang, Quan Sun, Xinggang Wang, Tiejun Huang, Xinlong Wang, Yue
Cao
- Abstract要約: EVA-02はトランスフォーマーをベースとした次世代の視覚表現で、頑丈で堅牢な言語対応の視覚機能を再構築するために事前訓練されている。
モデルサイズは6Mから304Mのパラメータで、4種類のEVA-02が提供されています。
- 参考スコア(独自算出の注目度): 49.90565085768437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We launch EVA-02, a next-generation Transformer-based visual representation
pre-trained to reconstruct strong and robust language-aligned vision features
via masked image modeling. With an updated plain Transformer architecture as
well as extensive pre-training from an open & accessible giant CLIP vision
encoder, EVA-02 demonstrates superior performance compared to prior
state-of-the-art approaches across various representative vision tasks, while
utilizing significantly fewer parameters and compute budgets. Notably, using
exclusively publicly accessible training data, EVA-02 with only 304M parameters
achieves a phenomenal 90.0 fine-tuning top-1 accuracy on ImageNet-1K val set.
Additionally, our EVA-02-CLIP can reach up to 80.4 zero-shot top-1 on
ImageNet-1K, outperforming the previous largest & best open-sourced CLIP with
only ~1/6 parameters and ~1/6 image-text training data. We offer four EVA-02
variants in various model sizes, ranging from 6M to 304M parameters, all with
impressive performance. To facilitate open access and open research, we release
the complete suite of EVA-02 to the community at
https://github.com/baaivision/EVA/tree/master/EVA-02.
- Abstract(参考訳): EVA-02はトランスフォーマーをベースとした次世代の視覚表現で、マスク付き画像モデリングにより、頑健で堅牢な言語対応の視覚特徴を再構築する。
更新されたプレーントランスフォーマーアーキテクチャと、オープンでアクセス可能な巨大クリップビジョンエンコーダからの広範な事前トレーニングにより、eva-02は、様々な代表的なビジョンタスクにおける以前の最先端のアプローチよりも優れたパフォーマンスを示しながら、パラメータと計算予算を大幅に削減している。
特に,304Mパラメータしか持たないEVA-02では,ImageNet-1K valセット上で,90.0の微調整トップ1精度を実現している。
さらに、EVA-02-CLIPはImageNet-1Kで最大80.4のゼロショットトップ-1に到達でき、以前の最大かつ最高のオープンソースCLIPよりも1/6パラメータと1/6イメージテキストトレーニングデータで上回っている。
モデルサイズは6Mから304Mのパラメータで、4種類のEVA-02が提供されています。
オープンアクセスとオープンリサーチを容易にするため,EVA-02の全スイートをhttps://github.com/baaivision/EVA/tree/master/EVA-02でコミュニティにリリースする。
関連論文リスト
- EgoPoseFormer: A Simple Baseline for Stereo Egocentric 3D Human Pose Estimation [15.590340765703893]
ステレオ・エゴセントリックな人物ポーズ推定のためのトランスフォーマーモデルであるEgoPoseFormerを提案する。
本手法は,ヘッドマウントカメラの自己閉塞性や視野制限(FOV)による関節視認性を克服する主な課題を克服する。
本手法をステレオUnrealEgoデータセット上で評価し,従来の手法よりも大幅に優れていたことを示す。
論文 参考訳(メタデータ) (2024-03-26T20:02:48Z) - EVA-CLIP-18B: Scaling CLIP to 18 Billion Parameters [25.729577042823514]
提案するEVA-CLIP-18Bは,これまでで最大かつ最強のオープンソースCLIPモデルであり,パラメータは18ビリオンである。
EVA-CLIP-18Bは、わずか6ビリオンのトレーニングサンプルしか見つからず、27の広く認識されている画像分類ベンチマークで平均80.7%のゼロショットトップ1の精度を達成している。
論文 参考訳(メタデータ) (2024-02-06T18:59:48Z) - Sparse then Prune: Toward Efficient Vision Transformers [2.191505742658975]
Vision Transformerは自然言語処理におけるTransformerモデルの成功に触発されたディープラーニングモデルである。
視力変換器にスパース正規化を適用すると、精度が0.12%向上する。
スパース正規化を伴うモデルにプルーニングを適用すると、さらによい結果が得られる。
論文 参考訳(メタデータ) (2023-07-22T05:43:33Z) - EVA-CLIP: Improved Training Techniques for CLIP at Scale [20.145062325090286]
本稿では,CLIPトレーニングの効率と有効性を向上する一連のモデルであるEVA-CLIPを提案する。
提案手法は, 表現学習, 最適化, 拡張のための新しい手法を取り入れ, EVA-CLIPによる性能向上を実現する。
論文 参考訳(メタデータ) (2023-03-27T17:02:21Z) - EVA: Exploring the Limits of Masked Visual Representation Learning at
Scale [46.952339726872374]
EVAは視覚中心の基盤モデルで、大規模に視覚表現の限界を探索する。
EVAは、目に見える画像パッチに調整されたマスクされた画像テキスト整列視覚機能を再構築するために事前訓練されたバニラViTである。
EVAから巨大なCLIPのビジョンタワーを初期化することで、トレーニングを大幅に安定させ、より少ないサンプルと少ない計算でスクラッチからトレーニングを上回ります。
論文 参考訳(メタデータ) (2022-11-14T18:59:52Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - Better plain ViT baselines for ImageNet-1k [100.80574771242937]
Vision Transformer モデルは ImageNet-1k スケールのデータに精通するために高度な正規化技術を必要とすることが一般的である。
このノートは、オリジナルのViT(Vision Transformer)バニラトレーニング設定にいくつかの小さな変更を加え、平易なViTモデルの性能を劇的に改善した。
論文 参考訳(メタデータ) (2022-05-03T15:54:44Z) - ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation [76.35955924137986]
人間のポーズ推定データセットを微調整した結果,MAEプリトレーニング付きプレーン・ビジョン・トランスフォーマが優れた性能が得られることを示す。
10億のパラメータを持つ ViTAE-G バックボーンをベースとした我々の最大の ViTPose モデルは MS COCO test-dev セット上で最高の 80.9 mAP を得る。
論文 参考訳(メタデータ) (2022-04-26T17:55:04Z) - CSWin Transformer: A General Vision Transformer Backbone with
Cross-Shaped Windows [99.36226415086243]
汎用視覚タスクのための効率的なトランスフォーマーベースバックボーンCSWin Transformerを提案する。
トランスフォーマー設計における課題は、グローバルな自己アテンションが計算に非常に高価であるのに対して、ローカルな自己アテンションはトークン間の相互作用のフィールドを制限することが多いことである。
論文 参考訳(メタデータ) (2021-07-01T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。