論文の概要: Do You Even Need Attention? A Stack of Feed-Forward Layers Does
Surprisingly Well on ImageNet
- arxiv url: http://arxiv.org/abs/2105.02723v1
- Date: Thu, 6 May 2021 14:42:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 16:52:44.614179
- Title: Do You Even Need Attention? A Stack of Feed-Forward Layers Does
Surprisingly Well on ImageNet
- Title(参考訳): 注意さえ必要か?
imagenetではフィードフォワードレイヤーのスタックが驚くほどうまく機能する
- Authors: Luke Melas-Kyriazi
- Abstract要約: 視覚変換器の注意層をパッチ寸法に印加したフィードフォワード層に置き換える。
ViT/DeiTのベースサイズは74.9%、VitとDeiTの77.9%、79.9%である。
- 参考スコア(独自算出の注目度): 3.9215337270154995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The strong performance of vision transformers on image classification and
other vision tasks is often attributed to the design of their multi-head
attention layers. However, the extent to which attention is responsible for
this strong performance remains unclear. In this short report, we ask: is the
attention layer even necessary? Specifically, we replace the attention layer in
a vision transformer with a feed-forward layer applied over the patch
dimension. The resulting architecture is simply a series of feed-forward layers
applied over the patch and feature dimensions in an alternating fashion. In
experiments on ImageNet, this architecture performs surprisingly well: a
ViT/DeiT-base-sized model obtains 74.9\% top-1 accuracy, compared to 77.9\% and
79.9\% for ViT and DeiT respectively. These results indicate that aspects of
vision transformers other than attention, such as the patch embedding, may be
more responsible for their strong performance than previously thought. We hope
these results prompt the community to spend more time trying to understand why
our current models are as effective as they are.
- Abstract(参考訳): 画像分類やその他の視覚タスクにおける視覚変換器の強い性能は、多面的注意層の設計に起因することが多い。
しかし、この強いパフォーマンスにどの程度の注意が払われるかは不明だ。
この短いレポートでは、注意層は必要か?
具体的には、視覚変換器の注意層をパッチ寸法に印加したフィードフォワード層に置き換える。
結果として生じるアーキテクチャは、単にパッチと機能次元を交互に適用した一連のフィードフォワード層である。
ImageNetの実験では、このアーキテクチャは驚くほどよく機能する: ViT/DeiTベースサイズのモデルでは、それぞれ77.9\%と79.9\%に対して、74.9\%のトップ-1の精度が得られる。
これらの結果は、例えばパッチの埋め込みのような注意以外の視覚トランスフォーマーの側面が、以前考えられていたよりも強いパフォーマンスに責任があることを示唆している。
これらの結果がコミュニティに、現在のモデルがこれほど効果的である理由を理解しようと、より多くの時間を費やすことを願っています。
関連論文リスト
- SpectFormer: Frequency and Attention is what you need in a Vision
Transformer [28.01996628113975]
視覚変換器は画像認識タスクにうまく応用されている。
スペクトルとマルチヘッドの両方が重要な役割を担っていると仮定する。
本稿では,スペクトル層と多頭部アテンション層を組み合わせたトランスフォーマーのための新しいSpectformerアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-04-13T12:27:17Z) - A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - Understanding The Robustness in Vision Transformers [140.1090560977082]
自己注意は、改善された中レベルの表現を通して堅牢性を促進する。
我々は、この能力を強化するために、フルアテンショナルネットワーク(FAN)のファミリーを提案する。
我々のモデルは、76.8Mパラメータを持つImageNet-1kおよびImageNet-C上で、最先端の87.1%の精度と35.8%のmCEを達成する。
論文 参考訳(メタデータ) (2022-04-26T17:16:32Z) - Three things everyone should know about Vision Transformers [67.30250766591405]
トランスフォーマーアーキテクチャは コンピュータビジョンにおいて 急速に勢いを増しています
視覚変換器の変種をシンプルかつ容易に実装できる3つの洞察を提供する。
我々は、ImageNet-1kデータセットを用いて、これらの設計選択の影響を評価し、ImageNet-v2テストセットにおける結果を確認した。
論文 参考訳(メタデータ) (2022-03-18T08:23:03Z) - BViT: Broad Attention based Vision Transformer [13.994231768182907]
本稿では,BViTと呼ばれる視覚変換器において,異なるレイヤの注意関係を組み込むことにより,性能向上のための広範囲な注意を喚起する。
画像分類タスクの実験は、BViTが5M/22Mパラメータを持つImageNet上で74.8%/81.6%の最先端の精度を提供することを示した。
論文 参考訳(メタデータ) (2022-02-13T09:23:29Z) - AutoFormer: Searching Transformers for Visual Recognition [97.60915598958968]
本稿では,視覚トランスフォーマー検索専用のワンショットアーキテクチャ検索フレームワークであるAutoFormerを提案する。
AutoFormerは、スーパーネットトレーニング中に同じレイヤ内の異なるブロックの重みを絡み合わせる。
我々は、AutoFormer-tiny/small/baseが5.7M/22.9M/53.7Mパラメータを持つImageNetで74.7%/81.7%/82.4%のトップ-1精度を達成したことを示す。
論文 参考訳(メタデータ) (2021-07-01T17:59:30Z) - Patch Slimming for Efficient Vision Transformers [107.21146699082819]
与えられたネットワーク上で冗長な計算を行うことにより,視覚変換器の効率性について検討する。
我々は、トップダウンパラダイムで無駄なパッチを捨てる、新しいパッチスリム化アプローチを提案する。
ベンチマークによる実験結果から,提案手法は視覚変換器の計算コストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2021-06-05T09:46:00Z) - Improve Vision Transformers Training by Suppressing Over-smoothing [28.171262066145612]
トランス構造をコンピュータビジョンのタスクに導入することで、従来の畳み込みネットワークよりも優れたスピード精度のトレードオフが得られます。
しかし、視覚タスクでバニラ変圧器を直接訓練すると、不安定で準最適結果が得られることが示されている。
近年の研究では,視覚タスクの性能向上のために,畳み込み層を導入してトランスフォーマー構造を改良することを提案する。
論文 参考訳(メタデータ) (2021-04-26T17:43:04Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。