論文の概要: QuadTree Attention for Vision Transformers
- arxiv url: http://arxiv.org/abs/2201.02767v1
- Date: Sat, 8 Jan 2022 05:45:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-12 08:57:46.168276
- Title: QuadTree Attention for Vision Transformers
- Title(参考訳): 視覚トランスフォーマーの四分木注意
- Authors: Shitao Tang, Jiahui Zhang, Siyu Zhu, Ping Tan
- Abstract要約: 計算複雑性を2次から線形に低減するQuadTree Attentionを導入する。
我々のクアッドツリートランスフォーマーはトークンピラミッドを構築し、粗い方法で注意を計算します。
クワッドツリーのアテンションは,様々な視覚タスクにおける最先端のパフォーマンスを実現することを実証する。
- 参考スコア(独自算出の注目度): 45.14894414521764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have been successful in many vision tasks, thanks to their
capability of capturing long-range dependency. However, their quadratic
computational complexity poses a major obstacle for applying them to vision
tasks requiring dense predictions, such as object detection, feature matching,
stereo, etc. We introduce QuadTree Attention, which reduces the computational
complexity from quadratic to linear. Our quadtree transformer builds token
pyramids and computes attention in a coarse-to-fine manner. At each level, the
top K patches with the highest attention scores are selected, such that at the
next level, attention is only evaluated within the relevant regions
corresponding to these top K patches. We demonstrate that quadtree attention
achieves state-of-the-art performance in various vision tasks, e.g. with 4.0%
improvement in feature matching on ScanNet, about 50% flops reduction in stereo
matching, 0.4-1.5% improvement in top-1 accuracy on ImageNet classification,
1.2-1.8% improvement on COCO object detection, and 0.7-2.4% improvement on
semantic segmentation over previous state-of-the-art transformers. The codes
are available at
https://github.com/Tangshitao/QuadtreeAttention}{https://github.com/Tangshitao/QuadtreeAttention.
- Abstract(参考訳): トランスフォーマは、長距離依存性を捉える能力のおかげで、多くのビジョンタスクで成功しています。
しかし、それらの二次計算複雑性は、物体検出、特徴マッチング、ステレオなど、密な予測を必要とするビジョンタスクに適用する上で大きな障害となる。
計算複雑性を2次から線形に低減するQuadTree Attentionを導入する。
我々のクアッドツリートランスフォーマーはトークンピラミッドを構築し、粗い方法で注意を計算します。
各レベルにおいて、注目スコアが最も高いトップKパッチが選択され、次のレベルでは、これらのトップKパッチに対応する関連領域内でのみ注意が評価される。
例えば、ScanNetにおける特徴マッチングの4.0%改善、ステレオマッチングの50%フロップ削減、ImageNet分類の0.4-1.5%改善、COCOオブジェクト検出の1.2-1.8%改善、従来の最先端トランスフォーマーよりもセマンティックセグメンテーションの0.7-2.4%改善などである。
コードはhttps://github.com/Tangshitao/QuadtreeAttention}{https://github.com/Tangshitao/QuadtreeAttentionで公開されている。
関連論文リスト
- ACC-ViT : Atrous Convolution's Comeback in Vision Transformers [5.224344210588584]
我々は,地域情報とグローバル情報の両方を適応的に統合できる,地域的・疎外的な注意の融合であるAtrous Attentionを紹介した。
また、標準的な視覚タスクの慣行に従って、ACC-ViTと呼ばれる一般的な視覚変換器のバックボーンを提案する。
そのためACC-ViTは強力なビジョンバックボーンであり、小さなデータセットを持つニッチアプリケーションには理想的だ。
論文 参考訳(メタデータ) (2024-03-07T04:05:16Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - SepViT: Separable Vision Transformer [20.403430632658946]
ビジョントランスフォーマーは、しばしば高い性能を達成するために膨大な計算コストを頼りにしており、リソースに制約のあるデバイスにデプロイするには負担がかかる。
我々は、深度的に分離可能な畳み込みから教訓を導き、そのイデオロギーを模倣して、効率的なトランスフォーマーバックボーン、すなわちSepViTと略される分離可能なビジョントランスを設計する。
SepViTは、深度的に分離可能な自己アテンションを通じて、ウィンドウ内およびウィンドウ間のローカル・グローバル情報インタラクションの実行を支援する。
論文 参考訳(メタデータ) (2022-03-29T09:20:01Z) - UniFormer: Unifying Convolution and Self-attention for Visual
Recognition [69.68907941116127]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、ここ数年で主要なフレームワークである。
コンボリューションと自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合する新しいUnified TransFormer(UniFormer)を提案する。
我々のUniFormerはImageNet-1K分類において86.3トップ1の精度を実現している。
論文 参考訳(メタデータ) (2022-01-24T04:39:39Z) - CSWin Transformer: A General Vision Transformer Backbone with
Cross-Shaped Windows [99.36226415086243]
汎用視覚タスクのための効率的なトランスフォーマーベースバックボーンCSWin Transformerを提案する。
トランスフォーマー設計における課題は、グローバルな自己アテンションが計算に非常に高価であるのに対して、ローカルな自己アテンションはトークン間の相互作用のフィールドを制限することが多いことである。
論文 参考訳(メタデータ) (2021-07-01T17:59:56Z) - Focal Self-attention for Local-Global Interactions in Vision
Transformers [90.9169644436091]
局所的局所的相互作用と粗大な大域的相互作用の両方を包含する新しいメカニズムである焦点自己アテンションを提示する。
焦点自己アテンションを用いて、最先端の視覚変換器よりも優れた性能を実現する、Focal Transformerと呼ばれる新しい視覚変換器モデルを提案する。
論文 参考訳(メタデータ) (2021-07-01T17:56:09Z) - Involution: Inverting the Inherence of Convolution for Visual
Recognition [72.88582255910835]
本稿では,畳み込みの原理を逆転させることにより,深層ニューラルネットワークの新たな原子操作を提案する。
提案する畳み込み演算子は、視覚認識のための新しい世代のニューラルネットワークを構築するための基本ブロックとして利用することができる。
当社のInvolutionベースのモデルは、ResNet-50を使用した畳み込みベースラインのパフォーマンスを最大1.6%の精度、2.5%と2.4%のバウンディングボックスAP、4.7%は絶対にIoUを意味します。
論文 参考訳(メタデータ) (2021-03-10T18:40:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。