論文の概要: VSA: Learning Varied-Size Window Attention in Vision Transformers
- arxiv url: http://arxiv.org/abs/2204.08446v1
- Date: Mon, 18 Apr 2022 17:56:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-19 15:58:38.261272
- Title: VSA: Learning Varied-Size Window Attention in Vision Transformers
- Title(参考訳): vsa: 視覚トランスフォーマーにおける可変サイズのウィンドウアテンションの学習
- Authors: Qiming Zhang, Yufei Xu, Jing Zhang, Dacheng Tao
- Abstract要約: データから適応的なウィンドウ構成を学習するためのtextbfVaried-textbfSize Window textbfAttention (VSA)を提案する。
デフォルトウィンドウ内のトークンに基づいて、VSAはターゲットウィンドウのサイズと位置を予測するためにウィンドウ回帰モジュールを使用する。
- 参考スコア(独自算出の注目度): 76.35955924137986
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Attention within windows has been widely explored in vision transformers to
balance the performance, computation complexity, and memory footprint. However,
current models adopt a hand-crafted fixed-size window design, which restricts
their capacity of modeling long-term dependencies and adapting to objects of
different sizes. To address this drawback, we propose
\textbf{V}aried-\textbf{S}ize Window \textbf{A}ttention (VSA) to learn adaptive
window configurations from data. Specifically, based on the tokens within each
default window, VSA employs a window regression module to predict the size and
location of the target window, i.e., the attention area where the key and value
tokens are sampled. By adopting VSA independently for each attention head, it
can model long-term dependencies, capture rich context from diverse windows,
and promote information exchange among overlapped windows. VSA is an
easy-to-implement module that can replace the window attention in
state-of-the-art representative models with minor modifications and negligible
extra computational cost while improving their performance by a large margin,
e.g., 1.1\% for Swin-T on ImageNet classification. In addition, the performance
gain increases when using larger images for training and test. Experimental
results on more downstream tasks, including object detection, instance
segmentation, and semantic segmentation, further demonstrate the superiority of
VSA over the vanilla window attention in dealing with objects of different
sizes. The code will be released
https://github.com/ViTAE-Transformer/ViTAE-VSA.
- Abstract(参考訳): ウィンドウ内の注意は、性能、計算複雑性、メモリフットプリントのバランスをとるために、視覚変換器で広く研究されている。
しかし、現在のモデルは手作りの固定サイズウィンドウデザインを採用しており、これは長期依存をモデル化し、異なるサイズのオブジェクトに適応する能力を制限する。
この欠点に対処するために、データから適応的なウィンドウ構成を学習するために、 \textbf{V}aried-\textbf{S}ize Window \textbf{A}ttention (VSA)を提案する。
具体的には、デフォルトウィンドウ内のトークンに基づいて、VSAはターゲットウィンドウのサイズと位置、すなわちキーと値トークンがサンプリングされる注意領域を予測するために、ウィンドウ回帰モジュールを使用する。
各アテンションヘッドに独立してVSAを採用することで、長期依存関係をモデル化し、多様なウィンドウからリッチなコンテキストをキャプチャし、重なり合うウィンドウ間での情報交換を促進することができる。
vsaは実装が容易なモジュールで、最先端の代表モデルのウィンドウの注意を小さな修正と余分な計算コストで置き換えることができると同時に、imagenetの分類においてswin-tの1.1\%のような大きなマージンで性能を向上させることができる。
さらに、トレーニングやテストにより大きな画像を使用すると、パフォーマンスが向上する。
オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションなどの下流タスクの実験結果は、異なるサイズのオブジェクトを扱う場合のバニラウィンドウに対するVSAの優位性をさらに証明している。
コードはhttps://github.com/ViTAE-Transformer/ViTAE-VSAでリリースされる。
関連論文リスト
- Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like
Architectures [99.20299078655376]
本稿では、NLPフィールドで使用されるRWKVモデルから適応したVision-RWKVを紹介する。
我々のモデルは、スパース入力を効率的に処理し、ロバストなグローバル処理能力を実証するために設計されている。
評価の結果,VRWKVは画像分類におけるViTの性能を超え,高速化とメモリ使用量の削減を図っている。
論文 参考訳(メタデータ) (2024-03-04T18:46:20Z) - RFR-WWANet: Weighted Window Attention-Based Recovery Feature Resolution
Network for Unsupervised Image Registration [7.446209993071451]
Swin変換器は、その計算効率と長距離モデリング能力のために、医用画像解析に注目を集めている。
トランスフォーマーに基づく登録モデルは、複数のボクセルを単一のセマンティックトークンに結合する。
このマージプロセスは変換器をモデルに制限し、粗い粒度の空間情報を生成する。
本研究では, 高精度な空間情報提供を可能にするRFRNet(Recovery Feature Resolution Network)を提案する。
論文 参考訳(メタデータ) (2023-05-07T09:57:29Z) - Vision Transformer with Quadrangle Attention [76.35955924137986]
窓面に基づく注意を一般的な四角形定式化に拡張する新しい四角形注意法(QA)を提案する。
提案手法では,既定のウィンドウを対象の四角形に変換するために,変換行列を予測し,エンドツーエンドで学習可能な四角形回帰モジュールを用いる。
QAをプレーンかつ階層的な視覚変換器に統合し、QFormerという名の新しいアーキテクチャを作成します。
論文 参考訳(メタデータ) (2023-03-27T11:13:50Z) - Sparse Visual Counterfactual Explanations in Image Space [50.768119964318494]
画像空間における視覚的対実的説明のための新しいモデルを提案する。
我々は、ImageNetデータセットの急激な特徴により、ImageNet分類器の望ましくない動作を検出するために使用できることを示す。
論文 参考訳(メタデータ) (2022-05-16T20:23:11Z) - Beyond Fixation: Dynamic Window Visual Transformer [19.982593341611796]
我々はDW-ViT(Dynamic Window Vision Transformer)という新しい手法を提案する。
DW-ViTでは、異なる大きさのウィンドウを異なるウィンドウ・マルチヘッド・セルフアテンションの異なるヘッドグループに割り当てることで、マルチスケール情報を得る。
DW-ViTは優れたスケーラビリティを示し、任意のウィンドウベースの視覚変換器に簡単に挿入できる。
論文 参考訳(メタデータ) (2022-03-24T05:38:07Z) - Lawin Transformer: Improving Semantic Segmentation Transformer with
Multi-Scale Representations via Large Window Attention [16.75003034164463]
マルチスケール表現はセマンティックセグメンテーションに不可欠である。
本稿では,ウィンドウアテンション機構を用いたセマンティックセグメンテーション ViT にマルチスケール表現を導入する。
得られたViTであるLawin Transformerは、エンコーダとしてHVT、デコーダとしてLawinASPPから構成される。
論文 参考訳(メタデータ) (2022-01-05T13:51:20Z) - Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。
注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。
SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文 参考訳(メタデータ) (2021-11-30T08:08:47Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。