論文の概要: Better plain ViT baselines for ImageNet-1k
- arxiv url: http://arxiv.org/abs/2205.01580v1
- Date: Tue, 3 May 2022 15:54:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-04 14:22:32.682316
- Title: Better plain ViT baselines for ImageNet-1k
- Title(参考訳): ImageNet-1k のプレーン ViT ベースラインの改善
- Authors: Lucas Beyer, Xiaohua Zhai, Alexander Kolesnikov
- Abstract要約: Vision Transformer モデルは ImageNet-1k スケールのデータに精通するために高度な正規化技術を必要とすることが一般的である。
このノートは、オリジナルのViT(Vision Transformer)バニラトレーニング設定にいくつかの小さな変更を加え、平易なViTモデルの性能を劇的に改善した。
- 参考スコア(独自算出の注目度): 100.80574771242937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is commonly accepted that the Vision Transformer model requires
sophisticated regularization techniques to excel at ImageNet-1k scale data.
Surprisingly, we find this is not the case and standard data augmentation is
sufficient. This note presents a few minor modifications to the original Vision
Transformer (ViT) vanilla training setting that dramatically improve the
performance of plain ViT models. Notably, 90 epochs of training surpass 76%
top-1 accuracy in under seven hours on a TPUv3-8, similar to the classic
ResNet50 baseline, and 300 epochs of training reach 80% in less than one day.
- Abstract(参考訳): Vision Transformer モデルは ImageNet-1k スケールのデータに精通するために高度な正規化技術を必要とすることが一般的である。
驚いたことに、これは正しくなく、標準のデータ拡張だけでは十分である。
このノートは、オリジナルのViT(Vision Transformer)バニラトレーニング設定にいくつかの小さな変更を加え、平易なViTモデルの性能を劇的に改善した。
tpuv3-8では、90エポックのトレーニングが7時間以内に76%のtop-1精度を越え、従来のresnet50ベースラインと同様、300エポックのトレーニングは1日未満で80%に達する。
関連論文リスト
- DeiT III: Revenge of the ViT [56.46810490275699]
Vision Transformer (ViT) は、複数のコンピュータビジョンタスクを処理可能なシンプルなニューラルネットワークアーキテクチャである。
最近の研究によると、ViTsはBeiTのようなBerTライクな事前訓練の恩恵を受けている。
論文 参考訳(メタデータ) (2022-04-14T17:13:44Z) - Improving Vision Transformers by Revisiting High-frequency Components [106.7140968644414]
視覚変換器(ViT)モデルは,CNNモデルよりも画像の高周波成分の捕捉に効果が低いことを示す。
本稿では,画像の高周波成分を直接補うHATを提案する。
HAT は様々な ViT モデルの性能を継続的に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-04-03T05:16:51Z) - MVP: Multimodality-guided Visual Pre-training [215.11351064601303]
マスク付き画像モデリング(MIM)は,視覚前訓練において有望な方向となっている。
本稿では、他のモダリティからのガイダンスを導入し、このような付加的な知識が視覚前訓練に顕著な効果をもたらすことを検証する。
提案手法はMultimodality-guided Visual Pre-training (MVP) と名付けられ,トークン化ツールをCLIPのビジョンブランチに置き換える。
論文 参考訳(メタデータ) (2022-03-10T06:11:20Z) - Improving Vision Transformers for Incremental Learning [17.276384689286168]
本稿では、クラスインクリメンタルラーニングにおける視覚変換器(ViT)の応用について検討する。
クラス数が小さいとき、ViTは収束が非常に遅い。
新しいクラスに対するバイアスは、CNNベースのモデルよりもViTの方が大きい。
論文 参考訳(メタデータ) (2021-12-12T00:12:33Z) - Pyramid Adversarial Training Improves ViT Performance [43.322865996422664]
ピラミッド逆行訓練は、ViTの全体的な性能を改善するためのシンプルで効果的な技術である。
これにより、ImageNet-1Kデータでのみトレーニングされた場合、ViT-Bモデルに対して、ImageNetのクリーンな精度が1.82%$で絶対的に向上する。
論文 参考訳(メタデータ) (2021-11-30T04:38:14Z) - How to train your ViT? Data, Augmentation, and Regularization in Vision
Transformers [74.06040005144382]
ビジョントランスフォーマー(ViT)は、幅広いビジョンアプリケーションにおいて高い競争力を発揮することが示されている。
我々は,トレーニングデータの量,AugReg,モデルサイズ,計算予算の相互作用をよりよく理解するために,体系的な実証的研究を行う。
私たちは、パブリックなImageNet-21kデータセットでさまざまなサイズのViTモデルをトレーニングします。
論文 参考訳(メタデータ) (2021-06-18T17:58:20Z) - Scaling Vision Transformers [82.08465256393514]
本研究では,Vision Transformerがエラー率,データ,計算の関係をスケールし,特徴付ける方法について検討する。
我々は20億のパラメータを持つViTモデルをトレーニングし、ImageNetの90.45%のトップ-1の精度で新たな最先端技術を実現する。
このモデルは、例えば、ImageNetで84.86%のトップ-1の精度を達成し、1クラスにつき10のサンプルしか持たないような、数ショット学習でもうまく機能する。
論文 参考訳(メタデータ) (2021-06-08T17:47:39Z) - Self-Supervised Learning with Swin Transformers [24.956637957269926]
ビジョントランスフォーマーをバックボーンアーキテクチャとして,MoBYと呼ばれる自己監視型学習アプローチを提案する。
このアプローチには基本的に新しい発明がなく、MoCo v2とBYOLを組み合わせている。
パフォーマンスは、DeiTをバックボーンとして採用しているMoCo v3とDINOの最近の作品よりもわずかに優れていますが、はるかに軽いトリックがあります。
論文 参考訳(メタデータ) (2021-05-10T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。