論文の概要: Vision Transformer with Attention Map Hallucination and FFN Compaction
- arxiv url: http://arxiv.org/abs/2306.10875v1
- Date: Mon, 19 Jun 2023 12:08:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 17:57:53.586937
- Title: Vision Transformer with Attention Map Hallucination and FFN Compaction
- Title(参考訳): 注意マップ幻覚とffn圧縮を用いた視覚トランスフォーマー
- Authors: Haiyang Xu, Zhichao Zhou, Dongliang He, Fu Li, Jingdong Wang
- Abstract要約: 空白を埋めるために,注意マップの幻覚とFFNのコンパクト化を提案する。
具体的には、バニラVITに存在する類似の注意マップを観察し、残りの注意マップの半分を幻覚させることを提案する。
提案するモジュールでは,様々なViTベースのバックボーンに対して,浮動小数点演算(FLOP)とパラメータ(Param)の10$%-20$%の削減を実現している。
- 参考スコア(独自算出の注目度): 63.44499994227798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformer(ViT) is now dominating many vision tasks. The drawback of
quadratic complexity of its token-wise multi-head self-attention (MHSA), is
extensively addressed via either token sparsification or dimension reduction
(in spatial or channel). However, the therein redundancy of MHSA is usually
overlooked and so is the feed-forward network (FFN). To this end, we propose
attention map hallucination and FFN compaction to fill in the blank.
Specifically, we observe similar attention maps exist in vanilla ViT and
propose to hallucinate half of the attention maps from the rest with much
cheaper operations, which is called hallucinated-MHSA (hMHSA). As for FFN, we
factorize its hidden-to-output projection matrix and leverage the
re-parameterization technique to strengthen its capability, making it
compact-FFN (cFFN). With our proposed modules, a 10$\%$-20$\%$ reduction of
floating point operations (FLOPs) and parameters (Params) is achieved for
various ViT-based backbones, including straight (DeiT), hybrid (NextViT) and
hierarchical (PVT) structures, meanwhile, the performances are quite
competitive.
- Abstract(参考訳): Vision Transformer(ViT)は今や多くのビジョンタスクを支配している。
トークン・ワイド・マルチヘッド・セルフアテンション(MHSA)の2次複雑さの欠点は、トークンスペーシフィケーションまたは次元縮小(空間またはチャネル)を通じて広範囲に対処される。
しかし、MHSAの冗長性は通常見過ごされ、フィードフォワードネットワーク(FFN)も同様である。
そこで本研究では,空白を埋めるために注意マップの幻覚とFFNのコンパクト化を提案する。
特に,vanilla vit に類似した注意マップが存在することを観察し,より安価な操作でアテンションマップの半分を割くことを提案している(hallucinated-mhsa (hmhsa))。
FFNについては、その隠れ出力プロジェクション行列を分解し、再パラメータ化技術を利用してその能力を強化し、コンパクトFFN(cFFN)となる。
提案するモジュールでは,直列(DeiT),ハイブリッド(NextViT),階層構造(PVT)など,さまざまなViTベースのバックボーンに対して,浮動小数点演算(FLOP)とパラメータ(Params)の10$\%$-20$\%の削減を実現している。
関連論文リスト
- Accelerating Vision Transformers Based on Heterogeneous Attention
Patterns [89.86293867174324]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの分野で多くの注目を集めている。
層間における異種注意パターンの観測に基づく統合圧縮パイプラインを提案する。
実験的に、DGSSAとGLADの統合圧縮パイプラインは、最大121%のランタイムスループットを加速することができる。
論文 参考訳(メタデータ) (2023-10-11T17:09:19Z) - Laplacian-Former: Overcoming the Limitations of Vision Transformers in
Local Texture Detection [3.784298636620067]
Vision Transformer (ViT) モデルは、幅広いコンピュータビジョンタスクにおいてブレークスルーを実証している。
これらのモデルは、画像の高周波成分を捉えるのに苦労しており、局所的なテクスチャやエッジ情報を検出する能力を制限することができる。
本稿では,ラプラシアンピラミッド内の周波数情報を適応的に補正することで自己注意マップを向上する新しい手法であるラプラシアン・フォーマーを提案する。
論文 参考訳(メタデータ) (2023-08-31T19:56:14Z) - A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - ViT-FOD: A Vision Transformer based Fine-grained Object Discriminator [21.351034332423374]
細粒度画像分類(FGVC)タスクのための新しいViTに基づく細粒度物体識別器を提案する。
ViTバックボーンの他に、APC(Attention Patch Combination)、CRF(Critical Regions Filter)、CTI(Complementary Tokens Integration)という3つの新しいコンポーネントが導入されている。
我々は広く使われているデータセットに関する包括的な実験を行い、その結果、ViT-FODが最先端のパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2022-03-24T02:34:57Z) - Anti-Oversmoothing in Deep Vision Transformers via the Fourier Domain
Analysis: From Theory to Practice [111.47461527901318]
Vision Transformer (ViT) は先日,コンピュータビジョン問題における有望性を実証した。
ViTは観察された注意崩壊やパッチの均一性のために、深さが増加するにつれて急速に飽和する。
所望の低域制限を緩和する2つの手法を提案する。
論文 参考訳(メタデータ) (2022-03-09T23:55:24Z) - Coarse-to-Fine Vision Transformer [83.45020063642235]
性能を維持しながら計算負担を軽減するための粗視変換器(CF-ViT)を提案する。
提案するCF-ViTは,近代的なViTモデルにおける2つの重要な観測によって動機付けられている。
CF-ViTはLV-ViTのFLOPを53%削減し,スループットも2.01倍に向上した。
論文 参考訳(メタデータ) (2022-03-08T02:57:49Z) - A free lunch from ViT: Adaptive Attention Multi-scale Fusion Transformer
for Fine-grained Visual Recognition [10.045205311757028]
物体の部分に関する微妙な表現を学習することは、きめ細かい視覚認識(FGVR)分野において重要な役割を担っている。
ViTのパッチサイズの固定化により、ディープレイヤのクラストークンは、グローバルな受容フィールドに焦点を当て、FGVRのマルチグラニュラリティ機能を生成することができない。
本稿では,適応型マルチスケールフュージョントランス (AFTrans) という新しい手法を提案する。
論文 参考訳(メタデータ) (2021-10-04T08:11:21Z) - On Improving Adversarial Transferability of Vision Transformers [97.17154635766578]
視覚変換器(ViT)は、入力画像を、自己注意によるパッチのシーケンスとして処理する。
本稿では,ViTモデルの対角的特徴空間とその伝達性について検討する。
本稿では,ViTモデルのアーキテクチャに特有な2つの新しい戦略を紹介する。
論文 参考訳(メタデータ) (2021-06-08T08:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。