論文の概要: Improve Vision Transformers Training by Suppressing Over-smoothing
- arxiv url: http://arxiv.org/abs/2104.12753v1
- Date: Mon, 26 Apr 2021 17:43:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 14:55:20.395534
- Title: Improve Vision Transformers Training by Suppressing Over-smoothing
- Title(参考訳): オーバースムーシング抑制による視覚トランスフォーマートレーニングの改善
- Authors: Chengyue Gong, Dilin Wang, Meng Li, Vikas Chandra, Qiang Liu
- Abstract要約: トランス構造をコンピュータビジョンのタスクに導入することで、従来の畳み込みネットワークよりも優れたスピード精度のトレードオフが得られます。
しかし、視覚タスクでバニラ変圧器を直接訓練すると、不安定で準最適結果が得られることが示されている。
近年の研究では,視覚タスクの性能向上のために,畳み込み層を導入してトランスフォーマー構造を改良することを提案する。
- 参考スコア(独自算出の注目度): 28.171262066145612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Introducing the transformer structure into computer vision tasks holds the
promise of yielding a better speed-accuracy trade-off than traditional
convolution networks. However, directly training vanilla transformers on vision
tasks has been shown to yield unstable and sub-optimal results. As a result,
recent works propose to modify transformer structures by incorporating
convolutional layers to improve the performance on vision tasks. This work
investigates how to stabilize the training of vision transformers
\emph{without} special structure modification. We observe that the instability
of transformer training on vision tasks can be attributed to the over-smoothing
problem, that the self-attention layers tend to map the different patches from
the input image into a similar latent representation, hence yielding the loss
of information and degeneration of performance, especially when the number of
layers is large. We then propose a number of techniques to alleviate this
problem, including introducing additional loss functions to encourage
diversity, prevent loss of information, and discriminate different patches by
additional patch classification loss for Cutmix. We show that our proposed
techniques stabilize the training and allow us to train wider and deeper vision
transformers, achieving 85.0\% top-1 accuracy on ImageNet validation set
without introducing extra teachers or additional convolution layers. Our code
will be made publicly available at
https://github.com/ChengyueGongR/PatchVisionTransformer .
- Abstract(参考訳): コンピュータビジョンタスクにトランスフォーマー構造を導入することは、従来の畳み込みネットワークよりも高速なトレードオフをもたらすという約束を果たす。
しかし、視覚タスクでバニラ変圧器を直接訓練すると、不安定で準最適結果が得られることが示されている。
その結果、近年の研究では、視覚タスクの性能向上のために畳み込み層を導入してトランスフォーマー構造を変更することを提案する。
本研究は,視覚トランスフォーマーの特殊構造修正を安定化させる方法について検討する。
視覚タスクにおけるトランスフォーマートレーニングの不安定性は,入力画像からの異なるパッチを類似の潜在表現にマッピングする傾向があるため,特にレイヤ数が大きければ,情報の損失や性能の低下を生じさせる可能性がある。
そこで我々は,この問題を緩和するために,多様性を促進するための損失関数の追加,情報損失の防止,cutmixに対するパッチ分類損失の追加による異なるパッチの判別など,いくつかの手法を提案する。
提案手法はトレーニングを安定化させ,より深い視覚トランスフォーマーの訓練を可能にし,追加の教師や畳み込み層を導入することなく,imagenet検証セット上で85.0\%top-1精度を達成する。
私たちのコードはhttps://github.com/ChengyueGongR/PatchVisionTransformerで公開されます。
関連論文リスト
- Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - Three things everyone should know about Vision Transformers [67.30250766591405]
トランスフォーマーアーキテクチャは コンピュータビジョンにおいて 急速に勢いを増しています
視覚変換器の変種をシンプルかつ容易に実装できる3つの洞察を提供する。
我々は、ImageNet-1kデータセットを用いて、これらの設計選択の影響を評価し、ImageNet-v2テストセットにおける結果を確認した。
論文 参考訳(メタデータ) (2022-03-18T08:23:03Z) - AdaViT: Adaptive Vision Transformers for Efficient Image Recognition [78.07924262215181]
AdaViTは、パッチ、セルフアテンションヘッド、およびトランスフォーマーブロックを使用するための利用ポリシーを導出する適応フレームワークである。
本手法は,0.8%の精度で,最先端のビジョントランスに比べて2倍以上の効率向上を実現している。
論文 参考訳(メタデータ) (2021-11-30T18:57:02Z) - Blending Anti-Aliasing into Vision Transformer [57.88274087198552]
不連続なパッチ単位のトークン化プロセスは、ジャッジされたアーティファクトをアテンションマップに暗黙的に導入する。
エイリアス効果は、離散パターンを使用して高周波または連続的な情報を生成し、区別不能な歪みをもたらす。
本稿では,前述の問題を緩和するためのAliasing-Reduction Module(ARM)を提案する。
論文 参考訳(メタデータ) (2021-10-28T14:30:02Z) - Exploring and Improving Mobile Level Vision Transformers [81.7741384218121]
本稿では,移動体レベルでの視覚変換器の構造について検討し,劇的な性能低下を見出した。
本稿では,新しい不規則なパッチ埋め込みモジュールと適応パッチ融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-08-30T06:42:49Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - CvT: Introducing Convolutions to Vision Transformers [44.74550305869089]
畳み込み視覚変換器(CvT)は、視覚変換器(ViT)の性能と効率を向上する。
新しいアーキテクチャはViTに畳み込み、両方の設計で最高のものを生み出す。
論文 参考訳(メタデータ) (2021-03-29T17:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。