論文の概要: EVA: Exploring the Limits of Masked Visual Representation Learning at
Scale
- arxiv url: http://arxiv.org/abs/2211.07636v1
- Date: Mon, 14 Nov 2022 18:59:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 15:53:11.166013
- Title: EVA: Exploring the Limits of Masked Visual Representation Learning at
Scale
- Title(参考訳): eva: 大規模なマスク視覚表現学習の限界を探る
- Authors: Yuxin Fang, Wen Wang, Binhui Xie, Quan Sun, Ledell Wu, Xinggang Wang,
Tiejun Huang, Xinlong Wang, Yue Cao
- Abstract要約: EVAは視覚中心の基盤モデルで、大規模に視覚表現の限界を探索する。
EVAは、目に見える画像パッチに調整されたマスクされた画像テキスト整列視覚機能を再構築するために事前訓練されたバニラViTである。
EVAから巨大なCLIPのビジョンタワーを初期化することで、トレーニングを大幅に安定させ、より少ないサンプルと少ない計算でスクラッチからトレーニングを上回ります。
- 参考スコア(独自算出の注目度): 46.952339726872374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We launch EVA, a vision-centric foundation model to explore the limits of
visual representation at scale using only publicly accessible data. EVA is a
vanilla ViT pre-trained to reconstruct the masked out image-text aligned vision
features conditioned on visible image patches. Via this pretext task, we can
efficiently scale up EVA to one billion parameters, and sets new records on a
broad range of representative vision downstream tasks, such as image
recognition, video action recognition, object detection, instance segmentation
and semantic segmentation without heavy supervised training. Moreover, we
observe quantitative changes in scaling EVA result in qualitative changes in
transfer learning performance that are not present in other models. For
instance, EVA takes a great leap in the challenging large vocabulary instance
segmentation task: our model achieves almost the same state-of-the-art
performance on LVISv1.0 dataset with over a thousand categories and COCO
dataset with only eighty categories. Beyond a pure vision encoder, EVA can also
serve as a vision-centric, multi-modal pivot to connect images and text. We
find initializing the vision tower of a giant CLIP from EVA can greatly
stabilize the training and outperform the training from scratch counterpart
with much fewer samples and less compute, providing a new direction for scaling
up and accelerating the costly training of multi-modal foundation models. To
facilitate future research, we will release all the code and models at
\url{https://github.com/baaivision/EVA}.
- Abstract(参考訳): EVAは視覚中心の基盤モデルであり、一般公開データのみを使用して、大規模に視覚表現の限界を探索する。
EVAは、目に見える画像パッチに調整されたマスクされた画像テキスト整列視覚機能を再構築するために事前訓練されたバニラViTである。
このプリテキストタスクを通じて、evaを10億のパラメータに効率的にスケールアップし、画像認識、ビデオアクション認識、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションなど、幅広い代表的なビジョン下流タスクに、教師付きトレーニングなしで新しいレコードを設定することができる。
さらに,他のモデルには存在しない転写学習性能の質的変化を,EVAのスケーリング結果の量的変化として観察する。
私たちのモデルは、1000以上のカテゴリと80以上のカテゴリのCOCOデータセットを持つLVISv1.0データセットで、ほぼ同じ最先端のパフォーマンスを実現しています。
純粋なビジョンエンコーダの他に、EVAは画像とテキストを接続するためのビジョン中心のマルチモーダルピボットとしても機能する。
EVAから巨大なCLIPのビジョンタワーを初期化することで、トレーニングを大幅に安定化し、より少ないサンプルと少ない計算でスクラッチからトレーニングを上回り、マルチモーダルファンデーションモデルのスケールアップと高速化のための新たな方向性を提供することができる。
将来の研究を促進するため、私たちはすべてのコードとモデルを \url{https://github.com/baaivision/EVA} でリリースします。
関連論文リスト
- Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - EVE: Efficient Vision-Language Pre-training with Masked Prediction and
Modality-Aware MoE [66.48689706116808]
効率的なビジョン・ランガグ(Efficient Vision-languagE)は、1つの統合された事前訓練タスクによってのみ事前訓練された1つの統合マルチモーダルトランスである。
Eveは、Modality-aware sparse Mixture-of-Expertsと統合された共有トランスフォーマーネットワーク内の視覚と言語をエンコードする。
Eveは、視覚的質問応答、視覚的推論、画像テキスト検索など、様々な視覚言語下流タスクにおける最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-08-23T07:36:30Z) - GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception
Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。
我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z) - MULLER: Multilayer Laplacian Resizer for Vision [16.67232499096539]
MULLERレサイザと呼ばれる,少数のトレーニング可能なパラメータしか持たない,非常に軽量な多層ラプラシアンリサイザを提案する。
MULLERは、様々な訓練パイプラインに簡単に接続できることを示し、基礎となる視覚タスクの性能を、ほとんど、あるいは、余分なコストで効果的に向上させる。
論文 参考訳(メタデータ) (2023-04-06T04:39:21Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z) - VinVL: Revisiting Visual Representations in Vision-Language Models [96.39332942534368]
画像のオブジェクト中心表現を提供するための改良されたオブジェクト検出モデルを開発した。
新しい視覚機能は、すべての視覚言語(VL)タスクのパフォーマンスを大幅に改善する。
新しいオブジェクト検出モデルを公開します。
論文 参考訳(メタデータ) (2021-01-02T23:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。