論文の概要: Slide-Transformer: Hierarchical Vision Transformer with Local
Self-Attention
- arxiv url: http://arxiv.org/abs/2304.04237v1
- Date: Sun, 9 Apr 2023 13:37:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 16:51:36.210947
- Title: Slide-Transformer: Hierarchical Vision Transformer with Local
Self-Attention
- Title(参考訳): スライド変換器:局所自己注意型階層型視覚変換器
- Authors: Xuran Pan, Tianzhu Ye, Zhuofan Xia, Shiji Song, Gao Huang
- Abstract要約: 視覚変換器(ViT)の最近の進歩において、自己注意機構が重要な要素となっている。
本稿では,高効率,柔軟性,一般化性を実現するために共通畳み込み演算を利用する新しいローカルアテンションモジュールを提案する。
我々のモジュールは、効率的かつ柔軟な方法で局所的な注意パラダイムを実現する。
- 参考スコア(独自算出の注目度): 34.26177289099421
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-attention mechanism has been a key factor in the recent progress of
Vision Transformer (ViT), which enables adaptive feature extraction from global
contexts. However, existing self-attention methods either adopt sparse global
attention or window attention to reduce the computation complexity, which may
compromise the local feature learning or subject to some handcrafted designs.
In contrast, local attention, which restricts the receptive field of each query
to its own neighboring pixels, enjoys the benefits of both convolution and
self-attention, namely local inductive bias and dynamic feature selection.
Nevertheless, current local attention modules either use inefficient Im2Col
function or rely on specific CUDA kernels that are hard to generalize to
devices without CUDA support. In this paper, we propose a novel local attention
module, Slide Attention, which leverages common convolution operations to
achieve high efficiency, flexibility and generalizability. Specifically, we
first re-interpret the column-based Im2Col function from a new row-based
perspective and use Depthwise Convolution as an efficient substitution. On this
basis, we propose a deformed shifting module based on the re-parameterization
technique, which further relaxes the fixed key/value positions to deformed
features in the local region. In this way, our module realizes the local
attention paradigm in both efficient and flexible manner. Extensive experiments
show that our slide attention module is applicable to a variety of advanced
Vision Transformer models and compatible with various hardware devices, and
achieves consistently improved performances on comprehensive benchmarks. Code
is available at https://github.com/LeapLabTHU/Slide-Transformer.
- Abstract(参考訳): 自己注意機構は、グローバルコンテキストからの適応的特徴抽出を可能にするビジョントランスフォーマー(ViT)の最近の進歩において重要な要素である。
しかし、既存の自己注意手法では、計算の複雑さを減らし、局所的な特徴学習を損なう可能性があるし、手作業による設計の対象になる可能性がある。
対照的に、各クエリの受容フィールドを隣接するピクセルに制限するローカルアテンションは、畳み込みと自己アテンション、すなわち局所帰納バイアスと動的特徴選択の両方の利点を享受している。
しかし、現在のローカルアテンションモジュールは非効率なIm2Col関数を使用するか、CUDAサポートなしでデバイスに一般化するのが難しい特定のCUDAカーネルに依存している。
本稿では,共通畳み込み操作を利用して高効率,柔軟性,汎用性を実現する,新しい局所的注意モジュールslide attentionを提案する。
具体的には、カラムベースのIm2Col関数を新しい行ベースの観点から再解釈し、Depthwise Convolutionを効率的な置換として利用する。
そこで本研究では,再パラメータ化手法に基づく変形シフトモジュールを提案し,局所領域の変形特徴に対する固定キー/値位置の緩和を図る。
このように、我々のモジュールは、効率的かつ柔軟な方法で局所的な注意パラダイムを実現する。
我々のスライドアテンションモジュールは、様々な高度なVision Transformerモデルに適用でき、様々なハードウェアデバイスと互換性があり、包括的なベンチマークの性能を一貫して改善している。
コードはhttps://github.com/LeapLabTHU/Slide-Transformerで入手できる。
関連論文リスト
- LoFLAT: Local Feature Matching using Focused Linear Attention Transformer [36.53651224633837]
We propose the LoFLAT, a novel Local Feature matching using Focused Linear Attention Transformer。
私たちのLoFLATは、Feature extract Module、Feature Transformer Module、Matching Moduleの3つの主要なモジュールで構成されています。
提案した LoFLAT は効率と精度の両方で LoFTR 法より優れている。
論文 参考訳(メタデータ) (2024-10-30T05:38:07Z) - DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - DAT++: Spatially Dynamic Vision Transformer with Deformable Attention [87.41016963608067]
Deformable Attention Transformer (DAT++)を提案する。
DAT++は、85.9%のImageNet精度、54.5および47.0のMS-COCOインスタンスセグメンテーションmAP、51.5のADE20KセマンティックセグメンテーションmIoUで、様々なビジュアル認識ベンチマークで最先端の結果を達成している。
論文 参考訳(メタデータ) (2023-09-04T08:26:47Z) - FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。
現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。
本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:37:12Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - LCTR: On Awakening the Local Continuity of Transformer for Weakly
Supervised Object Localization [38.376238216214524]
弱教師付きオブジェクトローカライゼーション(WSOL)は、画像レベルのラベルだけでオブジェクトローカライザを学習することを目的としている。
本稿では,グローバルな特徴の局所認識能力を高めることを目的とした,LCTRと呼ばれるトランスフォーマー上に構築された新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-10T01:48:40Z) - X-volution: On the unification of convolution and self-attention [52.80459687846842]
本稿では,畳み込み操作と自己注意操作の両方からなるマルチブランチ基本モジュールを提案する。
提案したX-進化は、非常に競争力のある視覚的理解の改善を実現する。
論文 参考訳(メタデータ) (2021-06-04T04:32:02Z) - LocalViT: Bringing Locality to Vision Transformers [132.42018183859483]
線、エッジ、形状、さらにはオブジェクトなどの構造に関連するため、画像には局所性が不可欠です。
フィードフォワードネットワークに奥行き畳み込みを導入することで,視覚トランスフォーメーションに局所性を加える。
この一見シンプルなソリューションは、フィードフォワードネットワークと反転残留ブロックの比較に触発されます。
論文 参考訳(メタデータ) (2021-04-12T17:59:22Z) - Patch-NetVLAD: Multi-Scale Fusion of Locally-Global Descriptors for
Place Recognition [29.282413482297255]
本稿では,Patch-NetVLADを紹介し,ローカルおよびグローバルデクリプタ手法の利点を組み合わせた新しい定式化を提案する。
Patch-NetVLADは,グローバルおよびローカルな特徴記述子ベースの手法と同等の計算量で優れることを示す。
ユーザ要件にも適応可能で、スピード最適化バージョンは最先端のものよりも桁違いに高速に動作する。
論文 参考訳(メタデータ) (2021-03-02T05:53:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。