論文の概要: Neighborhood Attention Transformer
- arxiv url: http://arxiv.org/abs/2204.07143v1
- Date: Thu, 14 Apr 2022 17:55:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-15 12:24:12.752375
- Title: Neighborhood Attention Transformer
- Title(参考訳): 近所注意変圧器
- Authors: Ali Hassani, Steven Walton, Jiachen Li, Shen Li, Humphrey Shi
- Abstract要約: 近隣注意変換器(Norborhood Attention Transformer、NAT)は、効率的で正確でスケーラブルな階層変換器である。
Neighborhood Attention (NA)上に構築されたシンプルで柔軟なアテンションメカニズムは、各クエリの受信フィールドを近隣のピクセルにローカライズする。
- 参考スコア(独自算出の注目度): 24.478343522484604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Neighborhood Attention Transformer (NAT), an efficient, accurate
and scalable hierarchical transformer that works well on both image
classification and downstream vision tasks. It is built upon Neighborhood
Attention (NA), a simple and flexible attention mechanism that localizes the
receptive field for each query to its nearest neighboring pixels. NA is a
localization of self-attention, and approaches it as the receptive field size
increases. It is also equivalent in FLOPs and memory usage to Swin
Transformer's shifted window attention given the same receptive field size,
while being less constrained. Furthermore, NA includes local inductive biases,
which eliminate the need for extra operations such as pixel shifts.
Experimental results on NAT are competitive; NAT-Tiny reaches 83.2% top-1
accuracy on ImageNet with only 4.3 GFLOPs and 28M parameters, 51.4% mAP on
MS-COCO and 48.4% mIoU on ADE20k. We will open-source our checkpoints, training
script, configurations, and our CUDA kernel at:
https://github.com/SHI-Labs/Neighborhood-Attention-Transformer .
- Abstract(参考訳): 本稿では,画像分類と下流ビジョンの両面で有効な効率良く高精度でスケーラブルな階層的トランスフォーマーであるneighborion attention transformer (nat)を提案する。
Neighborhood Attention (NA)は、クエリの受信フィールドを近隣のピクセルにローカライズするシンプルで柔軟なアテンションメカニズムである。
NAは自己注意の局所化であり、受容野のサイズが大きくなるにつれてそれにアプローチする。
また、同じレセプティブフィールドサイズでスウィントランスのシフトウインドウアテンションと同等のフロップとメモリ使用量を持つが、制約は少ない。
さらに、NAは局所誘導バイアスを含んでおり、ピクセルシフトのような余分な操作は不要である。
NAT-Tinyは4.3 GFLOPsと28Mパラメータしか持たないImageNetで83.2%、MS-COCOでは51.4%、ADE20kでは48.4%である。
私たちは、チェックポイント、トレーニングスクリプト、設定、CUDAカーネルを、https://github.com/SHI-Labs/Neighborhood-Attention-Transformerでオープンソース化します。
関連論文リスト
- ZoomTrack: Target-aware Non-uniform Resizing for Efficient Visual
Tracking [40.13014036490452]
トランスにより、高速で最先端(SOTA)の性能にアプローチできる速度指向トラッカーが実現された。
入力サイズを小さくして高い追従速度を達成しつつ、このギャップを狭めたり閉じたりすることさえ可能であることを実証する。
論文 参考訳(メタデータ) (2023-10-16T05:06:13Z) - DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition [62.95223898214866]
我々は,視覚変換器の有効性を探究し,参加する受容領域の計算複雑性とサイズとのトレードオフを追求する。
ピラミッドアーキテクチャを用いて,MSDAブロックを低レベルに積み重ねたマルチスケールDilated Transformer (DilateFormer) と,高レベルにグローバルなマルチヘッド自己保持ブロックを構築する。
実験の結果,DilateFormerは様々な視覚タスクで最先端のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-02-03T14:59:31Z) - Vision Transformer with Super Token Sampling [93.70963123497327]
多くの視覚タスクにおいて、視覚変換器は印象的なパフォーマンスを達成した。
浅い層のために局所的な特徴を捉える際に、高い冗長性に悩まされる可能性がある。
スーパートークンは、視覚的コンテンツの意味的に意味のあるテッセルレーションを提供しようとする。
論文 参考訳(メタデータ) (2022-11-21T03:48:13Z) - Dilated Neighborhood Attention Transformer [16.35767262996978]
新しい階層型視覚変換器であるDilated Neighborhood Attention Transformer (DiNAT)を紹介する。
DiNATはNATやSwinといった注目ベースラインよりも大幅に改善されている。
我々の大規模モデルは、COCOオブジェクト検出における1.5%ボックスAP、COCOインスタンスセグメンテーションにおける1.3%マスクAP、ADE20Kセマンティックセグメンテーションにおける1.1%mIoUよりも優れている。
論文 参考訳(メタデータ) (2022-09-29T17:57:08Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - Adaptive Split-Fusion Transformer [90.04885335911729]
本稿では,適応重みによる畳み込みと注目の分岐を異なる方法で扱うための適応分割変換器(ASF-former)を提案する。
ImageNet-1Kのような標準ベンチマークの実験では、我々のASFフォーマーはCNN、トランスフォーマー、ハイブリッドパイロットを精度で上回っている。
論文 参考訳(メタデータ) (2022-04-26T10:00:28Z) - SepViT: Separable Vision Transformer [20.403430632658946]
ビジョントランスフォーマーは、しばしば高い性能を達成するために膨大な計算コストを頼りにしており、リソースに制約のあるデバイスにデプロイするには負担がかかる。
我々は、深度的に分離可能な畳み込みから教訓を導き、そのイデオロギーを模倣して、効率的なトランスフォーマーバックボーン、すなわちSepViTと略される分離可能なビジョントランスを設計する。
SepViTは、深度的に分離可能な自己アテンションを通じて、ウィンドウ内およびウィンドウ間のローカル・グローバル情報インタラクションの実行を支援する。
論文 参考訳(メタデータ) (2022-03-29T09:20:01Z) - UniFormer: Unifying Convolution and Self-attention for Visual
Recognition [69.68907941116127]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、ここ数年で主要なフレームワークである。
コンボリューションと自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合する新しいUnified TransFormer(UniFormer)を提案する。
我々のUniFormerはImageNet-1K分類において86.3トップ1の精度を実現している。
論文 参考訳(メタデータ) (2022-01-24T04:39:39Z) - CSWin Transformer: A General Vision Transformer Backbone with
Cross-Shaped Windows [99.36226415086243]
汎用視覚タスクのための効率的なトランスフォーマーベースバックボーンCSWin Transformerを提案する。
トランスフォーマー設計における課題は、グローバルな自己アテンションが計算に非常に高価であるのに対して、ローカルな自己アテンションはトークン間の相互作用のフィールドを制限することが多いことである。
論文 参考訳(メタデータ) (2021-07-01T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。