論文の概要: Swin Transformer V2: Scaling Up Capacity and Resolution
- arxiv url: http://arxiv.org/abs/2111.09883v1
- Date: Thu, 18 Nov 2021 18:59:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 15:35:18.699709
- Title: Swin Transformer V2: Scaling Up Capacity and Resolution
- Title(参考訳): Swin Transformer V2: 容量と解像度のスケールアップ
- Authors: Ze Liu and Han Hu and Yutong Lin and Zhuliang Yao and Zhenda Xie and
Yixuan Wei and Jia Ning and Yue Cao and Zheng Zhang and Li Dong and Furu Wei
and Baining Guo
- Abstract要約: 我々はSwin Transformerを最大30億のパラメータにスケーリングし、最大1,536$times$1,536解像度の画像でトレーニングできるようにする。
キャパシティと解像度をスケールアップすることで、Swin Transformerは4つの代表的なビジョンベンチマークに新しいレコードを設定する。
- 参考スコア(独自算出の注目度): 45.462916348268664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present techniques for scaling Swin Transformer up to 3 billion parameters
and making it capable of training with images of up to 1,536$\times$1,536
resolution. By scaling up capacity and resolution, Swin Transformer sets new
records on four representative vision benchmarks: 84.0% top-1 accuracy on
ImageNet-V2 image classification, 63.1/54.4 box/mask mAP on COCO object
detection, 59.9 mIoU on ADE20K semantic segmentation, and 86.8% top-1 accuracy
on Kinetics-400 video action classification. Our techniques are generally
applicable for scaling up vision models, which has not been widely explored as
that of NLP language models, partly due to the following difficulties in
training and applications: 1) vision models often face instability issues at
scale and 2) many downstream vision tasks require high resolution images or
windows and it is not clear how to effectively transfer models pre-trained at
low resolutions to higher resolution ones. The GPU memory consumption is also a
problem when the image resolution is high. To address these issues, we present
several techniques, which are illustrated by using Swin Transformer as a case
study: 1) a post normalization technique and a scaled cosine attention approach
to improve the stability of large vision models; 2) a log-spaced continuous
position bias technique to effectively transfer models pre-trained at
low-resolution images and windows to their higher-resolution counterparts. In
addition, we share our crucial implementation details that lead to significant
savings of GPU memory consumption and thus make it feasible to train large
vision models with regular GPUs. Using these techniques and self-supervised
pre-training, we successfully train a strong 3B Swin Transformer model and
effectively transfer it to various vision tasks involving high-resolution
images or windows, achieving the state-of-the-art accuracy on a variety of
benchmarks.
- Abstract(参考訳): 我々はSwin Transformerを最大30億のパラメータにスケーリングし、最大1,536$\times$1,536解像度の画像でトレーニングできるようにする。
キャパシティと解像度のスケールアップにより、Swin Transformerは4つの代表的なビジョンベンチマークに新しいレコードを設定した: ImageNet-V2イメージ分類の84.0%、COCOオブジェクト検出の63.1/54.4ボックス/マスクmAP、ADE20Kセマンティックセグメンテーションの59.9 mIoU、Kinetics-400ビデオアクション分類の86.8%。
私たちの技術は一般的に,nlp言語モデルとして広く研究されていないビジョンモデルのスケールアップに適用できる。
1)ビジョンモデルは、しばしば大規模で不安定な問題に直面する。
2) 多くのダウンストリームビジョンタスクでは高解像度画像やウィンドウが必要であり、低解像度で事前トレーニングされたモデルを高解像度に効果的に転送する方法は明確ではない。
gpuメモリ消費もまた、画像解像度が高い場合に問題となる。
これらの課題に対処するために,Swin Transformer を事例として,いくつかの手法を提案する。
1) 大型視覚モデルの安定性を向上させるためのポスト正規化技術とスケールドコサイン注意アプローチ
2) 低解像度画像や窓で事前学習したモデルを高解像度画像に効果的に転送する対数空間連続位置バイアス技術。
さらに、GPUメモリ消費の大幅な削減につながる重要な実装の詳細を共有し、通常のGPUで大きなビジョンモデルをトレーニングできるようにする。
これらの手法と自己教師付き事前学習を用いて,強力な3b swinトランスフォーマーモデルをトレーニングし,高分解能画像やウィンドウを含む様々な視覚タスクに効果的に転送し,様々なベンチマークで最先端の精度を実現する。
関連論文リスト
- ViTAR: Vision Transformer with Any Resolution [80.95324692984903]
ビジョントランスフォーマーは、トレーニング中に見られるものと異なる処理解像度で性能低下を経験する。
複数の解像度で一貫した位置認識を提供するために、視覚変換器にファジィ位置符号化を導入する。
我々のモデルであるViTARは、1120x1120の解像度で83.3%、4032x4032の解像度で80.4%の精度で、優れた適応性を示す。
論文 参考訳(メタデータ) (2024-03-27T08:53:13Z) - xT: Nested Tokenization for Larger Context in Large Images [79.37673340393475]
xTは、グローバルコンテキストを局所的な詳細で集約するビジョントランスフォーマーのフレームワークである。
我々は、挑戦的な分類タスクにおいて、精度を最大8.6%向上させることができる。
論文 参考訳(メタデータ) (2024-03-04T10:29:58Z) - MULLER: Multilayer Laplacian Resizer for Vision [16.67232499096539]
MULLERレサイザと呼ばれる,少数のトレーニング可能なパラメータしか持たない,非常に軽量な多層ラプラシアンリサイザを提案する。
MULLERは、様々な訓練パイプラインに簡単に接続できることを示し、基礎となる視覚タスクの性能を、ほとんど、あるいは、余分なコストで効果的に向上させる。
論文 参考訳(メタデータ) (2023-04-06T04:39:21Z) - PatchDropout: Economizing Vision Transformers Using Patch Dropout [9.243684409949436]
入力画像パッチをランダムにドロップすることで、標準のViTモデルを高解像度で効率的に訓練できることを示す。
我々はPatchDropoutを使って計算とメモリの5倍の節約と性能の向上を観察する。
論文 参考訳(メタデータ) (2022-08-10T14:08:55Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z) - Focal Self-attention for Local-Global Interactions in Vision
Transformers [90.9169644436091]
局所的局所的相互作用と粗大な大域的相互作用の両方を包含する新しいメカニズムである焦点自己アテンションを提示する。
焦点自己アテンションを用いて、最先端の視覚変換器よりも優れた性能を実現する、Focal Transformerと呼ばれる新しい視覚変換器モデルを提案する。
論文 参考訳(メタデータ) (2021-07-01T17:56:09Z) - Scaling Vision Transformers [82.08465256393514]
本研究では,Vision Transformerがエラー率,データ,計算の関係をスケールし,特徴付ける方法について検討する。
我々は20億のパラメータを持つViTモデルをトレーニングし、ImageNetの90.45%のトップ-1の精度で新たな最先端技術を実現する。
このモデルは、例えば、ImageNetで84.86%のトップ-1の精度を達成し、1クラスにつき10のサンプルしか持たないような、数ショット学習でもうまく機能する。
論文 参考訳(メタデータ) (2021-06-08T17:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。