論文の概要: BiFormer: Vision Transformer with Bi-Level Routing Attention
- arxiv url: http://arxiv.org/abs/2303.08810v1
- Date: Wed, 15 Mar 2023 17:58:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 12:45:57.258445
- Title: BiFormer: Vision Transformer with Bi-Level Routing Attention
- Title(参考訳): biformer:biレベルルーティングを考慮した視覚トランスフォーマー
- Authors: Lei Zhu and Xinjiang Wang and Zhanghan Ke and Wayne Zhang and Rynson
Lau
- Abstract要約: 本稿では,コンテンツ認識を伴う計算のより柔軟なアロケーションを実現するために,バイレベルルーティングによる新しい動的スパースアテンションを提案する。
具体的には、クエリにおいて、無関係なキー値対をまず粗い領域レベルでフィルタリングし、残った候補領域の結合にきめ細かなトークン対注意を適用する。
提案された双方向ルーティングアテンションによって構築され、BiFormerと呼ばれる新しい汎用ビジョントランスフォーマーが提示される。
- 参考スコア(独自算出の注目度): 26.374724782056557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the core building block of vision transformers, attention is a powerful
tool to capture long-range dependency. However, such power comes at a cost: it
incurs a huge computation burden and heavy memory footprint as pairwise token
interaction across all spatial locations is computed. A series of works attempt
to alleviate this problem by introducing handcrafted and content-agnostic
sparsity into attention, such as restricting the attention operation to be
inside local windows, axial stripes, or dilated windows. In contrast to these
approaches, we propose a novel dynamic sparse attention via bi-level routing to
enable a more flexible allocation of computations with content awareness.
Specifically, for a query, irrelevant key-value pairs are first filtered out at
a coarse region level, and then fine-grained token-to-token attention is
applied in the union of remaining candidate regions (\ie, routed regions). We
provide a simple yet effective implementation of the proposed bi-level routing
attention, which utilizes the sparsity to save both computation and memory
while involving only GPU-friendly dense matrix multiplications. Built with the
proposed bi-level routing attention, a new general vision transformer, named
BiFormer, is then presented. As BiFormer attends to a small subset of relevant
tokens in a \textbf{query adaptive} manner without distraction from other
irrelevant ones, it enjoys both good performance and high computational
efficiency, especially in dense prediction tasks. Empirical results across
several computer vision tasks such as image classification, object detection,
and semantic segmentation verify the effectiveness of our design. Code is
available at \url{https://github.com/rayleizhu/BiFormer}.
- Abstract(参考訳): 視覚変換器のコアビルディングブロックとしての注目は、長距離依存を捉える強力なツールである。
しかし、このようなパワーはコストがかかり、全ての空間的な場所をまたいだペアワイズトークンの相互作用が計算されるため、計算負荷とメモリフットプリントが増大する。
一連の研究は、局所窓や軸線、拡張窓などの注意操作を制限するなど、手作りでコンテンツに依存しない空間を注意に向けることでこの問題を緩和しようとしている。
これらのアプローチとは対照的に、コンテンツ認識を伴うより柔軟な計算の割り当てを可能にするために、バイレベルルーティングによる新しいダイナミックスパースアテンションを提案する。
具体的には、クエリにおいて、無関係なキー値対をまず粗い領域レベルでフィルタリングし、残った候補領域(\ie, routed region)の結合にきめ細かなトークン対注意を適用する。
提案手法は,GPU に親しみやすい行列乗算のみを伴いながら,計算とメモリの両方を節約する。
提案された双方向ルーティングアテンションによって構築され、BiFormerと呼ばれる新しい汎用ビジョントランスフォーマーが提示される。
BiFormerは、他の無関係なトークンに気を散らさずに、関連するトークンの小さなサブセットに出席するので、特に高密度予測タスクにおいて、優れたパフォーマンスと高い計算効率の両方を享受できる。
画像分類,オブジェクト検出,セマンティックセグメンテーションなどのコンピュータビジョンタスクにおける実験結果から,設計の有効性が検証された。
コードは \url{https://github.com/rayleizhu/BiFormer} で入手できる。
関連論文リスト
- Tree Attention: Topology-aware Decoding for Long-Context Attention on GPU clusters [10.403248386029407]
自己アテンションは、シーケンス長の複雑さのため、重要な計算ボトルネックである。
本研究では、勾配が自己アテンションブロックを計算するスカラーエネルギー関数を導出する。
我々の定式化により,木伐採により,配列軸を横断する還元を効率的に並列に計算できることが判明した。
論文 参考訳(メタデータ) (2024-08-07T21:16:55Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - EcoFormer: Energy-Saving Attention with Linear Complexity [40.002608785252164]
Transformerはシーケンシャルデータをモデル化する変換フレームワークである。
本研究では,高次元ソフトマックスアテンションにカスタマイズした新しいバイナライゼーションパラダイムを提案する。
EcoFormerは、標準の注意を払って、一貫して同等のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-09-19T13:28:32Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Rethinking Query-Key Pairwise Interactions in Vision Transformers [5.141895475956681]
本稿では,問合せキーの対の相互作用を排除し,注意重みを求めるために計算効率の高い相性ゲートを用いるキーオンリーの注意を提案する。
我々は、ImageNet分類ベンチマークのパラメータ限定設定において、最先端の精度に達する新しい自己注意モデルファミリーLinGlosを開発した。
論文 参考訳(メタデータ) (2022-07-01T03:36:49Z) - PSViT: Better Vision Transformer via Token Pooling and Attention Sharing [114.8051035856023]
トークンプーリングとアテンション共有を併用したPSViTを提案する。
実験の結果,提案手法は画像ネット分類の精度を最大6.6%向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-08-07T11:30:54Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z) - Coordinate Attention for Efficient Mobile Network Design [96.40415345942186]
チャネルの注目に位置情報を埋め込むことにより,モバイルネットワークに対する新たな注意メカニズムを提案する。
2次元グローバルプーリングにより特徴テンソルを単一特徴ベクトルに変換するチャネルアテンションとは異なり、座標アテンションはチャネルアテンションを2つの1次元特徴符号化プロセスに分解する。
座標の注意はImageNetの分類に有用であり、オブジェクト検出やセマンティックセグメンテーションといった下流タスクではよりうまく振る舞う。
論文 参考訳(メタデータ) (2021-03-04T09:18:02Z) - Towards Efficient Scene Understanding via Squeeze Reasoning [71.1139549949694]
我々はSqueeze Reasoningと呼ばれる新しいフレームワークを提案する。
空間地図上の情報を伝播するのではなく、まず入力特徴をチャネルワイドなグローバルベクトルに絞ることを学ぶ。
提案手法はエンドツーエンドのトレーニングブロックとしてモジュール化可能であり,既存のネットワークに簡単に接続可能であることを示す。
論文 参考訳(メタデータ) (2020-11-06T12:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。