論文の概要: SpectFormer: Frequency and Attention is what you need in a Vision
Transformer
- arxiv url: http://arxiv.org/abs/2304.06446v1
- Date: Thu, 13 Apr 2023 12:27:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-14 14:47:04.244222
- Title: SpectFormer: Frequency and Attention is what you need in a Vision
Transformer
- Title(参考訳): SpectFormer: Vision Transformerに必要な周波数と注意
- Authors: Badri N. Patro, Vinay P. Namboodiri, Vijay Srinivas Agneeswaran
- Abstract要約: 視覚変換器は画像認識タスクにうまく応用されている。
スペクトルとマルチヘッドの両方が重要な役割を担っていると仮定する。
本稿では,スペクトル層と多頭部アテンション層を組み合わせたトランスフォーマーのための新しいSpectformerアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 28.01996628113975
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision transformers have been applied successfully for image recognition
tasks. There have been either multi-headed self-attention based (ViT
\cite{dosovitskiy2020image}, DeIT, \cite{touvron2021training}) similar to the
original work in textual models or more recently based on spectral layers
(Fnet\cite{lee2021fnet}, GFNet\cite{rao2021global},
AFNO\cite{guibas2021efficient}). We hypothesize that both spectral and
multi-headed attention plays a major role. We investigate this hypothesis
through this work and observe that indeed combining spectral and multi-headed
attention layers provides a better transformer architecture. We thus propose
the novel Spectformer architecture for transformers that combines spectral and
multi-headed attention layers. We believe that the resulting representation
allows the transformer to capture the feature representation appropriately and
it yields improved performance over other transformer representations. For
instance, it improves the top-1 accuracy by 2\% on ImageNet compared to both
GFNet-H and LiT. SpectFormer-S reaches 84.25\% top-1 accuracy on ImageNet-1K
(state of the art for small version). Further, Spectformer-L achieves 85.7\%
that is the state of the art for the comparable base version of the
transformers. We further ensure that we obtain reasonable results in other
scenarios such as transfer learning on standard datasets such as CIFAR-10,
CIFAR-100, Oxford-IIIT-flower, and Standford Car datasets. We then investigate
its use in downstream tasks such of object detection and instance segmentation
on the MS-COCO dataset and observe that Spectformer shows consistent
performance that is comparable to the best backbones and can be further
optimized and improved. Hence, we believe that combined spectral and attention
layers are what are needed for vision transformers.
- Abstract(参考訳): 視覚トランスフォーマーは画像認識タスクにうまく適用されている。
マルチヘッド・セルフ・アテンション・ベース(vit \cite{dosovitskiy2020image}, deit, \cite{touvron2021training})は、テキストモデルや近年のスペクトル層に基づくものと同様のものである(fnet\cite{lee2021fnet}, gfnet\cite{rao2021global}, afno\cite{guibas2021 efficient})。
スペクトルとマルチヘッドの両方が大きな役割を果たすと仮定する。
この研究を通じてこの仮説を検証し、スペクトル層とマルチヘッドアテンション層の組み合わせにより、より優れたトランスフォーマーアーキテクチャが得られることを確かめる。
そこで本稿では,スペクトル層とマルチヘッド層を組み合わせた新しい変換器のSpectformerアーキテクチャを提案する。
その結果、トランスフォーマティブは特徴表現を適切に捉えることができ、他のトランスフォーマティブ表現よりもパフォーマンスが向上すると信じている。
例えば、GFNet-HとLiTと比較して、ImageNetでトップ1の精度を2倍改善する。
SpectFormer-S は ImageNet-1K の 84.25\% のトップ-1 に到達した。
さらにspectformer-lは85.7\%を達成しており、これはトランスフォーマーのベースバージョンに匹敵する技術である。
さらに、CIFAR-10、CIFAR-100、Oxford-IIIT-flower、Standford Carデータセットなどの標準データセットの転送学習など、他のシナリオで妥当な結果が得られることを保証します。
次に、オブジェクト検出やMS-COCOデータセットのインスタンスセグメンテーションなどの下流タスクでの利用を調査し、Spectformerが最高のバックボーンに匹敵する一貫性のあるパフォーマンスを示し、さらなる最適化と改善が可能であることを観察する。
したがって、視覚変換器にはスペクトル層と注意層が混在していると考えられる。
関連論文リスト
- A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - Multimodal Fusion Transformer for Remote Sensing Image Classification [35.57881383390397]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、期待できる性能のため、画像分類タスクにおいてトレンドとなっている。
CNNに近い満足なパフォーマンスを達成するために、トランスフォーマーはより少ないパラメータを必要とする。
HSI土地被覆分類のためのマルチヘッドクロスパッチアテンション(mCrossPA)を含む新しいマルチモーダルフュージョントランス (MFT) ネットワークを導入する。
論文 参考訳(メタデータ) (2022-03-31T11:18:41Z) - Attribute Surrogates Learning and Spectral Tokens Pooling in
Transformers for Few-shot Learning [50.95116994162883]
ビジョントランスフォーマーは、視覚認識のための畳み込みニューラルネットワークに代わる有望な選択肢だと考えられている。
本稿では,スペクトルトークンプールによる固有画像構造を利用した階層的カスケード変換器を提案する。
HCTransformersはDINOベースラインを9.7%の5ウェイの1ショット精度と9.17%の5ウェイの5ショット精度で上回っている。
論文 参考訳(メタデータ) (2022-03-17T03:49:58Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - BViT: Broad Attention based Vision Transformer [13.994231768182907]
本稿では,BViTと呼ばれる視覚変換器において,異なるレイヤの注意関係を組み込むことにより,性能向上のための広範囲な注意を喚起する。
画像分類タスクの実験は、BViTが5M/22Mパラメータを持つImageNet上で74.8%/81.6%の最先端の精度を提供することを示した。
論文 参考訳(メタデータ) (2022-02-13T09:23:29Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z) - Going deeper with Image Transformers [102.61950708108022]
我々は画像分類のためのより深いトランスフォーマーネットワークを構築し最適化する。
深部変圧器の精度を大幅に向上する2つの変圧器アーキテクチャ変更を行う。
私たちの最高のモデルは、再評価ラベルとImagenet-V2 /マッチ周波数を備えたImagenetの新しい状態を確立します。
論文 参考訳(メタデータ) (2021-03-31T17:37:32Z) - CvT: Introducing Convolutions to Vision Transformers [44.74550305869089]
畳み込み視覚変換器(CvT)は、視覚変換器(ViT)の性能と効率を向上する。
新しいアーキテクチャはViTに畳み込み、両方の設計で最高のものを生み出す。
論文 参考訳(メタデータ) (2021-03-29T17:58:22Z) - Vision Transformers for Dense Prediction [77.34726150561087]
高密度予測タスクのバックボーンとして、畳み込みネットワークの代わりにビジョントランスを活用するアーキテクチャである高密度ビジョントランスを紹介します。
実験により,このアーキテクチャは高密度予測タスクにおいて大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-03-24T18:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。