論文の概要: Neighborhood Attention Transformer
- arxiv url: http://arxiv.org/abs/2204.07143v5
- Date: Tue, 16 May 2023 21:26:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 21:14:16.152226
- Title: Neighborhood Attention Transformer
- Title(参考訳): 近所注意変圧器
- Authors: Ali Hassani, Steven Walton, Jiachen Li, Shen Li, Humphrey Shi
- Abstract要約: 本稿では,視覚に対する第1の効率的かつスケーラブルなスライディングウインドウアテンション機構であるNeighborhood Attention(NA)を紹介する。
NAはピクセルワイド操作であり、最寄りの画素に自己注意(SA)を局在させる。
我々はNATTENNeighborhood Attention Extensionを開発し、NAがSwinのWSAよりも40%高速に動作できるようにする。
- 参考スコア(独自算出の注目度): 24.478343522484604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Neighborhood Attention (NA), the first efficient and scalable
sliding-window attention mechanism for vision. NA is a pixel-wise operation,
localizing self attention (SA) to the nearest neighboring pixels, and therefore
enjoys a linear time and space complexity compared to the quadratic complexity
of SA. The sliding-window pattern allows NA's receptive field to grow without
needing extra pixel shifts, and preserves translational equivariance, unlike
Swin Transformer's Window Self Attention (WSA). We develop NATTEN (Neighborhood
Attention Extension), a Python package with efficient C++ and CUDA kernels,
which allows NA to run up to 40% faster than Swin's WSA while using up to 25%
less memory. We further present Neighborhood Attention Transformer (NAT), a new
hierarchical transformer design based on NA that boosts image classification
and downstream vision performance. Experimental results on NAT are competitive;
NAT-Tiny reaches 83.2% top-1 accuracy on ImageNet, 51.4% mAP on MS-COCO and
48.4% mIoU on ADE20K, which is 1.9% ImageNet accuracy, 1.0% COCO mAP, and 2.6%
ADE20K mIoU improvement over a Swin model with similar size. To support more
research based on sliding-window attention, we open source our project and
release our checkpoints at:
https://github.com/SHI-Labs/Neighborhood-Attention-Transformer .
- Abstract(参考訳): 我々は,視覚の効率良くスケーラブルなスライディングウインドアテンション機構であるnearby attention (na)を提案する。
NAはピクセルワイズ演算であり、近傍のピクセルに自己注意(SA)を局在させることで、SAの二次的な複雑さに比べて線形時間と空間の複雑さを享受する。
スライドウインドウパターンにより、NAの受容野は、余分なピクセルシフトを必要とせずに成長し、スウィントランスフォーマーのウィンドウ自己注意(WSA)とは異なり、翻訳の等価性を維持することができる。
我々はnatten (neighborhood attention extension) を開発した。効率的なc++とcudaカーネルを備えたpythonパッケージで、naはswainのwsaよりも最大40%高速で、メモリは最大25%少ない。
さらに、画像分類と下流視覚性能を向上させるNAに基づく新しい階層型トランス設計であるNeighborhood Attention Transformer(NAT)を提案する。
NAT-TinyはImageNetで83.2%、MS-COCOで51.4%、ADE20Kで48.4%、ImageNetで1.9%、COCO mAPで1.0%、ADE20K mIoUで2.6%に達している。
スライドウインドウの注意に基づくさらなる研究を支援するため、私たちはプロジェクトをオープンソース化し、チェックポイントをhttps://github.com/SHI-Labs/Neighborhood-Attention-Transformer でリリースしました。
関連論文リスト
- ZoomTrack: Target-aware Non-uniform Resizing for Efficient Visual
Tracking [40.13014036490452]
トランスにより、高速で最先端(SOTA)の性能にアプローチできる速度指向トラッカーが実現された。
入力サイズを小さくして高い追従速度を達成しつつ、このギャップを狭めたり閉じたりすることさえ可能であることを実証する。
論文 参考訳(メタデータ) (2023-10-16T05:06:13Z) - DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition [62.95223898214866]
我々は,視覚変換器の有効性を探究し,参加する受容領域の計算複雑性とサイズとのトレードオフを追求する。
ピラミッドアーキテクチャを用いて,MSDAブロックを低レベルに積み重ねたマルチスケールDilated Transformer (DilateFormer) と,高レベルにグローバルなマルチヘッド自己保持ブロックを構築する。
実験の結果,DilateFormerは様々な視覚タスクで最先端のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-02-03T14:59:31Z) - Vision Transformer with Super Token Sampling [93.70963123497327]
多くの視覚タスクにおいて、視覚変換器は印象的なパフォーマンスを達成した。
浅い層のために局所的な特徴を捉える際に、高い冗長性に悩まされる可能性がある。
スーパートークンは、視覚的コンテンツの意味的に意味のあるテッセルレーションを提供しようとする。
論文 参考訳(メタデータ) (2022-11-21T03:48:13Z) - Dilated Neighborhood Attention Transformer [16.35767262996978]
新しい階層型視覚変換器であるDilated Neighborhood Attention Transformer (DiNAT)を紹介する。
DiNATはNATやSwinといった注目ベースラインよりも大幅に改善されている。
我々の大規模モデルは、COCOオブジェクト検出における1.5%ボックスAP、COCOインスタンスセグメンテーションにおける1.3%マスクAP、ADE20Kセマンティックセグメンテーションにおける1.1%mIoUよりも優れている。
論文 参考訳(メタデータ) (2022-09-29T17:57:08Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - Adaptive Split-Fusion Transformer [90.04885335911729]
本稿では,適応重みによる畳み込みと注目の分岐を異なる方法で扱うための適応分割変換器(ASF-former)を提案する。
ImageNet-1Kのような標準ベンチマークの実験では、我々のASFフォーマーはCNN、トランスフォーマー、ハイブリッドパイロットを精度で上回っている。
論文 参考訳(メタデータ) (2022-04-26T10:00:28Z) - SepViT: Separable Vision Transformer [20.403430632658946]
ビジョントランスフォーマーは、しばしば高い性能を達成するために膨大な計算コストを頼りにしており、リソースに制約のあるデバイスにデプロイするには負担がかかる。
我々は、深度的に分離可能な畳み込みから教訓を導き、そのイデオロギーを模倣して、効率的なトランスフォーマーバックボーン、すなわちSepViTと略される分離可能なビジョントランスを設計する。
SepViTは、深度的に分離可能な自己アテンションを通じて、ウィンドウ内およびウィンドウ間のローカル・グローバル情報インタラクションの実行を支援する。
論文 参考訳(メタデータ) (2022-03-29T09:20:01Z) - UniFormer: Unifying Convolution and Self-attention for Visual
Recognition [69.68907941116127]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、ここ数年で主要なフレームワークである。
コンボリューションと自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合する新しいUnified TransFormer(UniFormer)を提案する。
我々のUniFormerはImageNet-1K分類において86.3トップ1の精度を実現している。
論文 参考訳(メタデータ) (2022-01-24T04:39:39Z) - CSWin Transformer: A General Vision Transformer Backbone with
Cross-Shaped Windows [99.36226415086243]
汎用視覚タスクのための効率的なトランスフォーマーベースバックボーンCSWin Transformerを提案する。
トランスフォーマー設計における課題は、グローバルな自己アテンションが計算に非常に高価であるのに対して、ローカルな自己アテンションはトークン間の相互作用のフィールドを制限することが多いことである。
論文 参考訳(メタデータ) (2021-07-01T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。