Fugu-MT 論文翻訳(概要): DeepViT: Towards Deeper Vision Transformer

論文の概要: DeepViT: Towards Deeper Vision Transformer

arxiv url: http://arxiv.org/abs/2103.11886v1
Date: Mon, 22 Mar 2021 14:32:07 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-23 14:25:48.945290
Title: DeepViT: Towards Deeper Vision Transformer
Title（参考訳）: DeepViT:より深いビジョントランスを目指して
Authors: Daquan Zhou, Bingyi Kang, Xiaojie Jin, Linjie Yang, Xiaochen Lian, Qibin Hou, Jiashi Feng
Abstract要約: 近年,視覚変換器 (ViT) が画像分類タスクに応用されている。より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
参考スコア（独自算出の注目度）: 92.04063170357426
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision transformers (ViTs) have been successfully applied in image classification tasks recently. In this paper, we show that, unlike convolution neural networks (CNNs)that can be improved by stacking more convolutional layers, the performance of ViTs saturate fast when scaled to be deeper. More specifically, we empirically observe that such scaling difficulty is caused by the attention collapse issue: as the transformer goes deeper, the attention maps gradually become similar and even much the same after certain layers. In other words, the feature maps tend to be identical in the top layers of deep ViT models. This fact demonstrates that in deeper layers of ViTs, the self-attention mechanism fails to learn effective concepts for representation learning and hinders the model from getting expected performance gain. Based on above observation, we propose a simple yet effective method, named Re-attention, to re-generate the attention maps to increase their diversity at different layers with negligible computation and memory cost. The pro-posed method makes it feasible to train deeper ViT models with consistent performance improvements via minor modification to existing ViT models. Notably, when training a deep ViT model with 32 transformer blocks, the Top-1 classification accuracy can be improved by 1.6% on ImageNet. Code will be made publicly available
Abstract（参考訳）: 近年,視覚変換器 (ViT) が画像分類タスクに応用されている。本稿では、より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深くスケールすると急速に飽和することを示す。より具体的には、このようなスケーリングの難しさは注意の崩壊の問題によって引き起こされていると経験的に観察する。言い換えれば、機能マップは深いViTモデルの上位層で同一である傾向がある。この事実は、ViTの深い層では、自己認識メカニズムが表現学習の効果的な概念を学習できず、期待されるパフォーマンス向上を妨げていることを示している。上記の観察に基づいて,注意マップを再生成し,異なる層におけるその多様性を無視できる計算量とメモリコストで高めるための,単純かつ効果的な手法であるre-attentionを提案する。提案手法により、既存のViTモデルに小さな修正を加えることで、より深いViTモデルを一貫した性能で訓練することが可能となる。特に、32個のトランスブロックを持つ深部ViTモデルのトレーニングでは、ImageNet上でTop-1の分類精度が1.6%向上する。コードは公開されます

関連論文リスト

Stronger ViTs With Octic Equivariance [13.357266345180296]
ViT(Vision Transformers)は、画像パッチ上の重み共有を重要な帰納バイアスとして組み込んでいる。我々は,オクティック・平等な層を用いた新しいアーキテクチャであるオクティック・ヴァイツを開発し,教師付き学習と自己教師型学習の両面でのテストに投入する。また,VT-HのFLOPの約40%の削減を実現し,分類とセグメンテーションの両面で改善した。
論文参考訳（メタデータ） (2025-05-21T12:22:53Z)
Rethinking Hierarchicies in Pre-trained Plain Vision Transformer [76.35955924137986]
マスク付き画像モデリング(MIM)による自己教師付き事前学習型視覚変換器(ViT)は非常に効果的であることが証明されている。カスタマイズされたアルゴリズムは、平易なViTのためにバニラと単純なMAEを使用する代わりに、例えばGreenMIMのような階層的なViTのために慎重に設計されるべきである。本稿では,自己指導型事前学習から階層型アーキテクチャ設計を遠ざける新しいアイデアを提案する。
論文参考訳（メタデータ） (2022-11-03T13:19:23Z)
Improving Vision Transformers by Revisiting High-frequency Components [106.7140968644414]
視覚変換器(ViT)モデルは,CNNモデルよりも画像の高周波成分の捕捉に効果が低いことを示す。本稿では,画像の高周波成分を直接補うHATを提案する。 HAT は様々な ViT モデルの性能を継続的に向上させることができることを示す。
論文参考訳（メタデータ） (2022-04-03T05:16:51Z)
Auto-scaling Vision Transformers without Training [84.34662535276898]
本研究では,視覚変換器(ViT)の自動スケーリングフレームワークAs-ViTを提案する。 As-ViTは、ViTを効率的かつ原則的に自動的に発見し、スケールアップする。 As-ViTは統合されたフレームワークとして、分類と検出において高いパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-02-24T06:30:55Z)
Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文参考訳（メタデータ） (2021-11-24T16:48:57Z)
Do Vision Transformers See Like Convolutional Neural Networks? [45.69780772718875]
近年の研究では、画像分類タスクにおいて、(Vision) Transformer Model (ViT) が同等またはそれ以上の性能を達成できることが示されている。畳み込みネットワークのように振る舞うのか、それとも全く異なる視覚表現を学ぶのか? 例えば、ViTはすべての層にわたってより均一な表現を持つ。
論文参考訳（メタデータ） (2021-08-19T17:27:03Z)
Scaling Vision Transformers [82.08465256393514]
本研究では,Vision Transformerがエラー率,データ,計算の関係をスケールし,特徴付ける方法について検討する。我々は20億のパラメータを持つViTモデルをトレーニングし、ImageNetの90.45%のトップ-1の精度で新たな最先端技術を実現する。このモデルは、例えば、ImageNetで84.86%のトップ-1の精度を達成し、1クラスにつき10のサンプルしか持たないような、数ショット学習でもうまく機能する。
論文参考訳（メタデータ） (2021-06-08T17:47:39Z)
ConViT: Improving Vision Transformers with Soft Convolutional Inductive Biases [16.308432111311195]
ビジョントランスフォーマー(ViT)は、より柔軟な自己アテンション層に依存し、最近画像分類のためにCNNを上回っています。本稿では,「ソフト」畳み込み型インダクティブバイアスを装着可能な位置自己アテンションの一形態であるゲート型位置自己アテンション(gpsa)を紹介する。その結果、ConvolutionalライクなViTアーキテクチャであるConViTは、ImageNet上のDeiTよりも優れています。
論文参考訳（メタデータ） (2021-03-19T09:11:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。