論文の概要: Scaled ReLU Matters for Training Vision Transformers
- arxiv url: http://arxiv.org/abs/2109.03810v1
- Date: Wed, 8 Sep 2021 17:57:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-09 15:19:18.374585
- Title: Scaled ReLU Matters for Training Vision Transformers
- Title(参考訳): 視覚トランスフォーマー訓練のためのスケールド・ルル問題
- Authors: Pichao Wang and Xue Wang and Hao Luo and Jingkai Zhou and Zhipeng Zhou
and Fan Wang and Hao Li and Rong Jin
- Abstract要約: 視覚変換器(ViT)は畳み込みニューラルネットワーク(CNN)の代替設計パラダイムである。
しかし、ViTsのトレーニングは、学習率、ウォームアップ、ウォームアップなどのトレーニングパラメータに敏感であるため、CNNよりもはるかに難しい。
我々は、理論上も経験上も、ReLUをtextitconv-stemで拡張することでトレーニングの安定化が向上するだけでなく、パッチトークンの多様性も向上することを確認した。
- 参考スコア(独自算出の注目度): 45.41439457701873
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision transformers (ViTs) have been an alternative design paradigm to
convolutional neural networks (CNNs). However, the training of ViTs is much
harder than CNNs, as it is sensitive to the training parameters, such as
learning rate, optimizer and warmup epoch. The reasons for training difficulty
are empirically analysed in ~\cite{xiao2021early}, and the authors conjecture
that the issue lies with the \textit{patchify-stem} of ViT models and propose
that early convolutions help transformers see better. In this paper, we further
investigate this problem and extend the above conclusion: only early
convolutions do not help for stable training, but the scaled ReLU operation in
the \textit{convolutional stem} (\textit{conv-stem}) matters. We verify, both
theoretically and empirically, that scaled ReLU in \textit{conv-stem} not only
improves training stabilization, but also increases the diversity of patch
tokens, thus boosting peak performance with a large margin via adding few
parameters and flops. In addition, extensive experiments are conducted to
demonstrate that previous ViTs are far from being well trained, further showing
that ViTs have great potential to be a better substitute of CNNs.
- Abstract(参考訳): 視覚変換器(ViT)は畳み込みニューラルネットワーク(CNN)の代替設計パラダイムである。
しかし、学習率やオプティマイザ、ウォームアップエポックといったトレーニングパラメータに敏感であるため、ViTsのトレーニングはCNNよりもはるかに難しい。
学習困難の原因は ~\cite{xiao2021early} で実証的に分析され、著者らはこの問題はvitモデルの \textit{patchify-stem} にあると推測し、初期の畳み込みはトランスフォーマーがより良く見えるようになることを提案している。
本稿では,この問題をさらに調査し,上記の結論を延長する。初期畳み込みは安定なトレーニングには役立たないが,\textit{convolutional stem} (\textit{conv-stem}) におけるスケールド relu 演算は問題となる。
理論的にも経験的にも,ReLU を \textit{conv-stem} でスケールさせたことはトレーニングの安定化を向上するだけでなく,パッチトークンの多様性の向上にも寄与する。
さらに、以前のViTが十分に訓練されるには程遠いことを実証するために、広範囲な実験が行われ、さらに、ViTがCNNのより良い代替となる可能性を示している。
関連論文リスト
- Experts Weights Averaging: A New General Training Scheme for Vision
Transformers [57.62386892571636]
推論コストを増大させることなく性能向上を実現するビジョントランスフォーマー(ViT)のトレーニング手法を提案する。
トレーニング中、ViTのFeed-Forward Networks(FFN)を、特別に設計されたより効率的なMoEに置き換える。
トレーニング後、各MoEを専門家を平均化してFFNに変換し、モデルを推論のために元のViTに変換する。
論文 参考訳(メタデータ) (2023-08-11T12:05:12Z) - ViT-P: Rethinking Data-efficient Vision Transformers from Locality [9.515925867530262]
我々は多焦点アテンションバイアスを導入することにより、畳み込みニューラルネットワークのようなデータ効率を向上する。
十分に訓練されたViTの注意距離にインスパイアされ、我々はViTの自己注意をマルチスケールの局所受容野に制限する。
Cifar100では、私たちのViT-P Baseモデルは、ゼロからトレーニングされた最先端の精度(83.16%)を達成する。
論文 参考訳(メタデータ) (2022-03-04T14:49:48Z) - Bootstrapping ViTs: Towards Liberating Vision Transformers from
Pre-training [29.20567759071523]
ビジョントランスフォーマー(ViT)は急速に発展し、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)の支配に挑戦し始めている。
本稿では,上位境界のネットワークアーキテクチャを保ちながら,CNNのインダクティブバイアスをViTに戻す。
CIFAR-10/100 と ImageNet-1k の限られたトレーニングデータによる実験は、有望な結果を示している。
論文 参考訳(メタデータ) (2021-12-07T07:56:50Z) - An Empirical Study of Training Self-Supervised Visual Transformers [70.27107708555185]
自己監視型視覚トランスフォーマーの訓練におけるいくつかの基本成分の影響について検討する。
これらの結果は確かに部分的な失敗であり、トレーニングをより安定させると改善できる。
論文 参考訳(メタデータ) (2021-04-05T17:59:40Z) - On the Adversarial Robustness of Visual Transformers [129.29523847765952]
本研究は、視覚変換器(ViT)の対逆的摂動に対する堅牢性に関する最初の包括的な研究を提供する。
さまざまなホワイトボックスとトランスファーアタック設定でテストされた ViT は、畳み込みニューラルネットワーク (CNN) と比較して、より優れた敵対的堅牢性を持っています。
論文 参考訳(メタデータ) (2021-03-29T14:48:24Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z) - Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。
我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。