論文の概要: ViTamin: Designing Scalable Vision Models in the Vision-Language Era
- arxiv url: http://arxiv.org/abs/2404.02132v1
- Date: Tue, 2 Apr 2024 17:40:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 15:20:18.287535
- Title: ViTamin: Designing Scalable Vision Models in the Vision-Language Era
- Title(参考訳): ViTamin: ビジョンランゲージ時代のスケーラブルなビジョンモデルの設計
- Authors: Jienneg Chen, Qihang Yu, Xiaohui Shen, Alan Yuille, Liang-Chieh Chen,
- Abstract要約: Vision Transformer (ViTs) は、イメージエンコーダのデフォルトの選択肢である。
ViTamin-Lは、ViT-Lを2.0%画像ネットゼロショット精度で大幅に上回る。
436万のパラメータしか持たないViTamin-XLは、82.9%のImageNetゼロショット精度を実現している。
- 参考スコア(独自算出の注目度): 24.116585973339134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent breakthroughs in vision-language models (VLMs) start a new page in the vision community. The VLMs provide stronger and more generalizable feature embeddings compared to those from ImageNet-pretrained models, thanks to the training on the large-scale Internet image-text pairs. However, despite the amazing achievement from the VLMs, vanilla Vision Transformers (ViTs) remain the default choice for the image encoder. Although pure transformer proves its effectiveness in the text encoding area, it remains questionable whether it is also the case for image encoding, especially considering that various types of networks are proposed on the ImageNet benchmark, which, unfortunately, are rarely studied in VLMs. Due to small data/model scale, the original conclusions of model design on ImageNet can be limited and biased. In this paper, we aim at building an evaluation protocol of vision models in the vision-language era under the contrastive language-image pretraining (CLIP) framework. We provide a comprehensive way to benchmark different vision models, covering their zero-shot performance and scalability in both model and training data sizes. To this end, we introduce ViTamin, a new vision models tailored for VLMs. ViTamin-L significantly outperforms ViT-L by 2.0% ImageNet zero-shot accuracy, when using the same publicly available DataComp-1B dataset and the same OpenCLIP training scheme. ViTamin-L presents promising results on 60 diverse benchmarks, including classification, retrieval, open-vocabulary detection and segmentation, and large multi-modal models. When further scaling up the model size, our ViTamin-XL with only 436M parameters attains 82.9% ImageNet zero-shot accuracy, surpassing 82.0% achieved by EVA-E that has ten times more parameters (4.4B).
- Abstract(参考訳): ビジョン言語モデル(VLM)の最近のブレークスルーは、ビジョンコミュニティで新しいページを始めます。
VLMは、大規模なインターネットイメージテキストペアのトレーニングのおかげで、ImageNetでトレーニングされたモデルと比較して、より強く、より一般化可能な機能埋め込みを提供する。
しかし、VLMの素晴らしい成果にもかかわらず、バニラビジョントランスフォーマー(ViT)がイメージエンコーダのデフォルトの選択肢である。
純粋変換器はテキスト符号化領域においてその有効性を証明するが、画像符号化においても、特に、VLMではほとんど研究されていないImageNetベンチマークにおいて、様々な種類のネットワークが提案されていることを考えると、疑問が残る。
小規模なデータ/モデルスケールのため、ImageNet上でのモデル設計の当初の結論は限定的かつ偏りがある。
本稿では,言語画像事前学習(CLIP)フレームワークを用いて,視覚言語時代の視覚モデルの評価プロトコルを構築することを目的とする。
さまざまなビジョンモデルをベンチマークする包括的な方法を提供し、そのゼロショットのパフォーマンスとスケーラビリティをモデルとトレーニングデータサイズの両方でカバーしています。
この目的のために、VLMに適した新しいビジョンモデルViTaminを紹介する。
ViTamin-Lは、同じ公開データComp-1Bデータセットと同じOpenCLIPトレーニングスキームを使用する場合、ViT-Lを2.0%画像ネットゼロショット精度で大幅に上回っている。
ViTamin-Lは、分類、検索、オープン語彙の検出とセグメンテーション、大規模なマルチモーダルモデルを含む60の様々なベンチマークで有望な結果を示す。
モデルサイズのさらなるスケールアップでは、436Mパラメータしか持たないViTamin-XLが82.9%のImageNetゼロショット精度に達し、10倍のパラメータ(4.4B)を持つEVA-Eによって82.0%を超える。
関連論文リスト
- How Well Can Vision Language Models See Image Details? [53.036922527685064]
視覚言語モデルはどのようにして画像の詳細を見ることができるのか」を探求するために画素値予測タスクを導入する。
我々の研究は、VLM事前学習タスクと視覚エンコーダ適応の1つとして画素値予測を組み込むことで、下流画像言語理解タスクにおけるVLM性能が著しく向上することを明らかにする。
論文 参考訳(メタデータ) (2024-08-07T17:59:40Z) - Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model [48.233300343211205]
We propose a new generic vision backbone with bidirectional Mamba block (Vim)。
Vimは画像列を位置埋め込みでマークし、視覚表現を双方向の状態空間モデルで圧縮する。
その結果,高解像度画像に対するTransformerスタイルの理解において,Vimは計算とメモリの制約を克服できることがわかった。
論文 参考訳(メタデータ) (2024-01-17T18:56:18Z) - Getting ViT in Shape: Scaling Laws for Compute-Optimal Model Design [84.34416126115732]
スケーリング法則は、最近、与えられた計算時間に最適なモデルサイズ(パラメータの数)を導出するために用いられる。
我々は、幅や深さなどの計算最適モデル形状を推測する手法を進化させ、改良し、視覚変換器でこれを実装した。
我々の形状最適化型視覚変換器SoViTは、同等の計算量で事前訓練されているにもかかわらず、サイズが2倍以上のモデルと競合する結果を得る。
論文 参考訳(メタデータ) (2023-05-22T13:39:28Z) - MULLER: Multilayer Laplacian Resizer for Vision [16.67232499096539]
MULLERレサイザと呼ばれる,少数のトレーニング可能なパラメータしか持たない,非常に軽量な多層ラプラシアンリサイザを提案する。
MULLERは、様々な訓練パイプラインに簡単に接続できることを示し、基礎となる視覚タスクの性能を、ほとんど、あるいは、余分なコストで効果的に向上させる。
論文 参考訳(メタデータ) (2023-04-06T04:39:21Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Vector-quantized Image Modeling with Improved VQGAN [93.8443646643864]
本稿では,自動回帰的に画像トークンを予測するためにトランスフォーマーを事前訓練するベクトル量子化画像モデリング手法を提案する。
まず,バニラVQGANに対して,アーキテクチャからコードブック学習までの複数の改良を提案する。
ImageNetで256x256解像度でトレーニングすると、175.1のインセプションスコア(IS)と4.17のFrechet Inception Distance(FID)を達成する。
論文 参考訳(メタデータ) (2021-10-09T18:36:00Z) - Scaling Vision Transformers [82.08465256393514]
本研究では,Vision Transformerがエラー率,データ,計算の関係をスケールし,特徴付ける方法について検討する。
我々は20億のパラメータを持つViTモデルをトレーニングし、ImageNetの90.45%のトップ-1の精度で新たな最先端技術を実現する。
このモデルは、例えば、ImageNetで84.86%のトップ-1の精度を達成し、1クラスにつき10のサンプルしか持たないような、数ショット学習でもうまく機能する。
論文 参考訳(メタデータ) (2021-06-08T17:47:39Z) - Multi-Scale Vision Longformer: A New Vision Transformer for
High-Resolution Image Encoding [81.07894629034767]
本稿では,新しいViTアーキテクチャであるMulti-Scale Vision Longformerを提案する。
これは、2つの技術を用いて高解像度画像をエンコードするためのquotionosovitskiy 2020 imageのvitを大幅に強化する。
論文 参考訳(メタデータ) (2021-03-29T06:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。