論文の概要: Scaling Vision Transformers to 22 Billion Parameters
- arxiv url: http://arxiv.org/abs/2302.05442v1
- Date: Fri, 10 Feb 2023 18:58:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-13 14:58:58.674744
- Title: Scaling Vision Transformers to 22 Billion Parameters
- Title(参考訳): ビジョントランスを22億パラメータに拡張する
- Authors: Mostafa Dehghani, Josip Djolonga, Basil Mustafa, Piotr Padlewski,
Jonathan Heek, Justin Gilmer, Andreas Steiner, Mathilde Caron, Robert
Geirhos, Ibrahim Alabdulmohsin, Rodolphe Jenatton, Lucas Beyer, Michael
Tschannen, Anurag Arnab, Xiao Wang, Carlos Riquelme, Matthias Minderer, Joan
Puigcerver, Utku Evci, Manoj Kumar, Sjoerd van Steenkiste, Gamaleldin F.
Elsayed, Aravindh Mahendran, Fisher Yu, Avital Oliver, Fantine Huot, Jasmijn
Bastings, Mark Patrick Collier, Alexey Gritsenko, Vighnesh Birodkar, Cristina
Vasconcelos, Yi Tay, Thomas Mensink, Alexander Kolesnikov, Filip Paveti\'c,
Dustin Tran, Thomas Kipf, Mario Lu\v{c}i\'c, Xiaohua Zhai, Daniel Keysers,
Jeremiah Harmsen, Neil Houlsby
- Abstract要約: Vision Transformers (ViT) は画像とビデオのモデリングに同じアーキテクチャを導入したが、まだほぼ同じ程度に拡張されていない。
本稿では,22Bパラメータ ViT (ViT-22B) の高効率かつ安定なトレーニング法を提案する。
ViT-22Bは、視界における"LLMライクな"スケーリングの可能性を示し、そこに到達するための重要なステップを提供する。
- 参考スコア(独自算出の注目度): 140.67853929168382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The scaling of Transformers has driven breakthrough capabilities for language
models. At present, the largest large language models (LLMs) contain upwards of
100B parameters. Vision Transformers (ViT) have introduced the same
architecture to image and video modelling, but these have not yet been
successfully scaled to nearly the same degree; the largest dense ViT contains
4B parameters (Chen et al., 2022). We present a recipe for highly efficient and
stable training of a 22B-parameter ViT (ViT-22B) and perform a wide variety of
experiments on the resulting model. When evaluated on downstream tasks (often
with a lightweight linear model on frozen features), ViT-22B demonstrates
increasing performance with scale. We further observe other interesting
benefits of scale, including an improved tradeoff between fairness and
performance, state-of-the-art alignment to human visual perception in terms of
shape/texture bias, and improved robustness. ViT-22B demonstrates the potential
for "LLM-like" scaling in vision, and provides key steps towards getting there.
- Abstract(参考訳): Transformerのスケーリングは、言語モデルの画期的な機能を生み出した。
現在、最大の大規模言語モデル(LLM)は100B以上のパラメータを含む。
Vision Transformers (ViT) は画像とビデオのモデリングに同じアーキテクチャを導入したが、これらのアーキテクチャは未だほぼ同じ程度に拡張されておらず、最大密度のViTは4Bパラメータを含む(Chen et al., 2022)。
本研究では,22Bパラメータ ViT (ViT-22B) の高効率かつ安定なトレーニング法を提案し,その結果のモデルについて多種多様な実験を行った。
下流タスク(しばしば凍結した特徴に対する軽量線形モデルで評価される)で評価すると、ViT-22Bはスケールによる性能向上を示す。
さらに、フェアネスとパフォーマンスのトレードオフの改善、形状/テクスチャバイアスによる人間の視覚知覚への最先端のアライメント、ロバストネスの改善など、スケールの他の興味深いメリットも観察する。
ViT-22Bは、視界における"LLMライクな"スケーリングの可能性を示し、そこに到達するための重要なステップを提供する。
関連論文リスト
- DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。
拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。
DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - Improving Vision Transformers by Revisiting High-frequency Components [106.7140968644414]
視覚変換器(ViT)モデルは,CNNモデルよりも画像の高周波成分の捕捉に効果が低いことを示す。
本稿では,画像の高周波成分を直接補うHATを提案する。
HAT は様々な ViT モデルの性能を継続的に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-04-03T05:16:51Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Scaling Vision Transformers [82.08465256393514]
本研究では,Vision Transformerがエラー率,データ,計算の関係をスケールし,特徴付ける方法について検討する。
我々は20億のパラメータを持つViTモデルをトレーニングし、ImageNetの90.45%のトップ-1の精度で新たな最先端技術を実現する。
このモデルは、例えば、ImageNetで84.86%のトップ-1の精度を達成し、1クラスにつき10のサンプルしか持たないような、数ショット学習でもうまく機能する。
論文 参考訳(メタデータ) (2021-06-08T17:47:39Z) - ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文 参考訳(メタデータ) (2021-06-07T05:31:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。