論文の概要: DeepViT: Towards Deeper Vision Transformer
- arxiv url: http://arxiv.org/abs/2103.11886v1
- Date: Mon, 22 Mar 2021 14:32:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-23 14:25:48.945290
- Title: DeepViT: Towards Deeper Vision Transformer
- Title(参考訳): DeepViT:より深いビジョントランスを目指して
- Authors: Daquan Zhou, Bingyi Kang, Xiaojie Jin, Linjie Yang, Xiaochen Lian,
Qibin Hou, Jiashi Feng
- Abstract要約: 近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
- 参考スコア(独自算出の注目度): 92.04063170357426
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision transformers (ViTs) have been successfully applied in image
classification tasks recently. In this paper, we show that, unlike convolution
neural networks (CNNs)that can be improved by stacking more convolutional
layers, the performance of ViTs saturate fast when scaled to be deeper. More
specifically, we empirically observe that such scaling difficulty is caused by
the attention collapse issue: as the transformer goes deeper, the attention
maps gradually become similar and even much the same after certain layers. In
other words, the feature maps tend to be identical in the top layers of deep
ViT models. This fact demonstrates that in deeper layers of ViTs, the
self-attention mechanism fails to learn effective concepts for representation
learning and hinders the model from getting expected performance gain. Based on
above observation, we propose a simple yet effective method, named
Re-attention, to re-generate the attention maps to increase their diversity at
different layers with negligible computation and memory cost. The pro-posed
method makes it feasible to train deeper ViT models with consistent performance
improvements via minor modification to existing ViT models. Notably, when
training a deep ViT model with 32 transformer blocks, the Top-1 classification
accuracy can be improved by 1.6% on ImageNet. Code will be made publicly
available
- Abstract(参考訳): 近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
本稿では、より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深くスケールすると急速に飽和することを示す。
より具体的には、このようなスケーリングの難しさは注意の崩壊の問題によって引き起こされていると経験的に観察する。
言い換えれば、機能マップは深いViTモデルの上位層で同一である傾向がある。
この事実は、ViTの深い層では、自己認識メカニズムが表現学習の効果的な概念を学習できず、期待されるパフォーマンス向上を妨げていることを示している。
上記の観察に基づいて,注意マップを再生成し,異なる層におけるその多様性を無視できる計算量とメモリコストで高めるための,単純かつ効果的な手法であるre-attentionを提案する。
提案手法により、既存のViTモデルに小さな修正を加えることで、より深いViTモデルを一貫した性能で訓練することが可能となる。
特に、32個のトランスブロックを持つ深部ViTモデルのトレーニングでは、ImageNet上でTop-1の分類精度が1.6%向上する。
コードは公開されます
関連論文リスト
- Rethinking Hierarchicies in Pre-trained Plain Vision Transformer [76.35955924137986]
マスク付き画像モデリング(MIM)による自己教師付き事前学習型視覚変換器(ViT)は非常に効果的であることが証明されている。
カスタマイズされたアルゴリズムは、平易なViTのためにバニラと単純なMAEを使用する代わりに、例えばGreenMIMのような階層的なViTのために慎重に設計されるべきである。
本稿では,自己指導型事前学習から階層型アーキテクチャ設計を遠ざける新しいアイデアを提案する。
論文 参考訳(メタデータ) (2022-11-03T13:19:23Z) - Improving Vision Transformers by Revisiting High-frequency Components [106.7140968644414]
視覚変換器(ViT)モデルは,CNNモデルよりも画像の高周波成分の捕捉に効果が低いことを示す。
本稿では,画像の高周波成分を直接補うHATを提案する。
HAT は様々な ViT モデルの性能を継続的に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-04-03T05:16:51Z) - Auto-scaling Vision Transformers without Training [84.34662535276898]
本研究では,視覚変換器(ViT)の自動スケーリングフレームワークAs-ViTを提案する。
As-ViTは、ViTを効率的かつ原則的に自動的に発見し、スケールアップする。
As-ViTは統合されたフレームワークとして、分類と検出において高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-02-24T06:30:55Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - Do Vision Transformers See Like Convolutional Neural Networks? [45.69780772718875]
近年の研究では、画像分類タスクにおいて、(Vision) Transformer Model (ViT) が同等またはそれ以上の性能を達成できることが示されている。
畳み込みネットワークのように振る舞うのか、それとも全く異なる視覚表現を学ぶのか?
例えば、ViTはすべての層にわたってより均一な表現を持つ。
論文 参考訳(メタデータ) (2021-08-19T17:27:03Z) - Scaling Vision Transformers [82.08465256393514]
本研究では,Vision Transformerがエラー率,データ,計算の関係をスケールし,特徴付ける方法について検討する。
我々は20億のパラメータを持つViTモデルをトレーニングし、ImageNetの90.45%のトップ-1の精度で新たな最先端技術を実現する。
このモデルは、例えば、ImageNetで84.86%のトップ-1の精度を達成し、1クラスにつき10のサンプルしか持たないような、数ショット学習でもうまく機能する。
論文 参考訳(メタデータ) (2021-06-08T17:47:39Z) - ConViT: Improving Vision Transformers with Soft Convolutional Inductive
Biases [16.308432111311195]
ビジョントランスフォーマー(ViT)は、より柔軟な自己アテンション層に依存し、最近画像分類のためにCNNを上回っています。
本稿では,「ソフト」畳み込み型インダクティブバイアスを装着可能な位置自己アテンションの一形態であるゲート型位置自己アテンション(gpsa)を紹介する。
その結果、ConvolutionalライクなViTアーキテクチャであるConViTは、ImageNet上のDeiTよりも優れています。
論文 参考訳(メタデータ) (2021-03-19T09:11:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。