論文の概要: Anti-Oversmoothing in Deep Vision Transformers via the Fourier Domain
Analysis: From Theory to Practice
- arxiv url: http://arxiv.org/abs/2203.05962v1
- Date: Wed, 9 Mar 2022 23:55:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-14 12:23:09.270131
- Title: Anti-Oversmoothing in Deep Vision Transformers via the Fourier Domain
Analysis: From Theory to Practice
- Title(参考訳): フーリエ領域解析によるディープ・ビジョン・トランスフォーマーの反Oversmoothing:理論から実践へ
- Authors: Peihao Wang, Wenqing Zheng, Tianlong Chen, Zhangyang Wang
- Abstract要約: Vision Transformer (ViT) は先日,コンピュータビジョン問題における有望性を実証した。
ViTは観察された注意崩壊やパッチの均一性のために、深さが増加するにつれて急速に飽和する。
所望の低域制限を緩和する2つの手法を提案する。
- 参考スコア(独自算出の注目度): 111.47461527901318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformer (ViT) has recently demonstrated promise in computer vision
problems. However, unlike Convolutional Neural Networks (CNN), it is known that
the performance of ViT saturates quickly with depth increasing, due to the
observed attention collapse or patch uniformity. Despite a couple of empirical
solutions, a rigorous framework studying on this scalability issue remains
elusive. In this paper, we first establish a rigorous theory framework to
analyze ViT features from the Fourier spectrum domain. We show that the
self-attention mechanism inherently amounts to a low-pass filter, which
indicates when ViT scales up its depth, excessive low-pass filtering will cause
feature maps to only preserve their Direct-Current (DC) component. We then
propose two straightforward yet effective techniques to mitigate the
undesirable low-pass limitation. The first technique, termed AttnScale,
decomposes a self-attention block into low-pass and high-pass components, then
rescales and combines these two filters to produce an all-pass self-attention
matrix. The second technique, termed FeatScale, re-weights feature maps on
separate frequency bands to amplify the high-frequency signals. Both techniques
are efficient and hyperparameter-free, while effectively overcoming relevant
ViT training artifacts such as attention collapse and patch uniformity. By
seamlessly plugging in our techniques to multiple ViT variants, we demonstrate
that they consistently help ViTs benefit from deeper architectures, bringing up
to 1.1% performance gains "for free" (e.g., with little parameter overhead). We
publicly release our codes and pre-trained models at
https://github.com/VITA-Group/ViT-Anti-Oversmoothing.
- Abstract(参考訳): Vision Transformer (ViT) は先日,コンピュータビジョン問題における有望性を実証した。
しかし、畳み込みニューラルネットワーク(CNN)とは異なり、観察された注意崩壊やパッチ均一性のため、ViTの性能は、深さが大きくなるにつれて急速に飽和することが知られている。
経験的なソリューションがいくつかあるが、このスケーラビリティの問題を研究する厳格なフレームワークは、いまだに理解できない。
本稿ではまず,フーリエスペクトル領域からVT特徴を解析するための厳密な理論枠組みを確立する。
自己保持機構は本質的に低域通過フィルタに比例し,ViTが深度を拡大した場合,過度な低域通過フィルタにより特徴写像は直流(DC)成分のみを保持することになることを示す。
次に、望ましくない低域制限を緩和する2つの単純かつ効果的な手法を提案する。
attnscaleと呼ばれる最初のテクニックは、セルフアテンションブロックをローパスとハイパスのコンポーネントに分解し、その後、これら2つのフィルタを再スケールして結合し、オールパスの自己アテンションマトリックスを生成する。
2つ目のテクニックはFeatScaleと呼ばれ、周波数帯域を分割して高周波数信号の増幅を行う。
どちらの手法も効率的かつハイパーパラメータフリーであり、注意崩壊やパッチ均一性といった関連するViTトレーニングアーティファクトを効果的に克服している。
当社の技術を複数のViT亜種にシームレスにプラグインすることで、ViTがより深いアーキテクチャの恩恵を受けるのに一貫して役立ち、パフォーマンスが1.1%向上する(例えば、パラメータのオーバーヘッドがほとんどない)ことを示す。
コードと事前トレーニングされたモデルは、https://github.com/VITA-Group/ViT-Anti-Oversmoothing.comで公開しています。
関連論文リスト
- Denoising Vision Transformers [43.03068202384091]
本稿では、DVT(Denoising Vision Transformers)と呼ばれる2段階のDenoisingアプローチを提案する。
第1段階では、画像ごとのニューラルネットワークとの横断的な特徴整合を強制することにより、位置的アーティファクトによって汚染されたものからクリーンな特徴を分離する。
第2段階では、クリーンな特徴を生のViT出力から予測するために軽量なトランスフォーマーブロックを訓練し、クリーンな特徴の導出推定を監督として活用する。
論文 参考訳(メタデータ) (2024-01-05T18:59:52Z) - Training-Free Acceleration of ViTs with Delayed Spatial Merging [4.523939613157408]
トークンマージは視覚変換器(ViT)の推論をリトレーニングや微調整なしに高速化する新しいパラダイムとして登場した。
1) アクティベーション・アウトレイアと2) 階層表現の視点を付加することでトークンのマージを改善する。
DSM: Delayed Spatial Mergingと呼ばれる統合推論フレームワークを構築します。
論文 参考訳(メタデータ) (2023-03-04T05:34:25Z) - Wave-ViT: Unifying Wavelet and Transformers for Visual Representation
Learning [138.29273453811945]
マルチスケールビジョントランス (ViT) はコンピュータビジョンタスクの強力なバックボーンとして登場した。
本稿では,ウェーブレット変換と自己注意学習を用いて,可逆的なダウンサンプリングを定式化する新しいウェーブレットビジョン変換器(textbfWave-ViT)を提案する。
論文 参考訳(メタデータ) (2022-07-11T16:03:51Z) - ViT-FOD: A Vision Transformer based Fine-grained Object Discriminator [21.351034332423374]
細粒度画像分類(FGVC)タスクのための新しいViTに基づく細粒度物体識別器を提案する。
ViTバックボーンの他に、APC(Attention Patch Combination)、CRF(Critical Regions Filter)、CTI(Complementary Tokens Integration)という3つの新しいコンポーネントが導入されている。
我々は広く使われているデータセットに関する包括的な実験を行い、その結果、ViT-FODが最先端のパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2022-03-24T02:34:57Z) - Unified Visual Transformer Compression [102.26265546836329]
本稿では,3つの有効な手法をシームレスに組み立てる,統一的なViT圧縮フレームワークを提案する。
予算制約のあるエンドツーエンドの最適化フレームワークを定式化し、モデルウェイトを共同学習し、レイヤーワイドプルーニング比/マスクを作成し、構成をスキップする。
実験は、ImageNetデータセット上のDeiTやT2T-ViTのバックボーンなど、いくつかのViT変種で実施されています。
論文 参考訳(メタデータ) (2022-03-15T20:38:22Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z) - On Improving Adversarial Transferability of Vision Transformers [97.17154635766578]
視覚変換器(ViT)は、入力画像を、自己注意によるパッチのシーケンスとして処理する。
本稿では,ViTモデルの対角的特徴空間とその伝達性について検討する。
本稿では,ViTモデルのアーキテクチャに特有な2つの新しい戦略を紹介する。
論文 参考訳(メタデータ) (2021-06-08T08:20:38Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。