論文の概要: Dilated Neighborhood Attention Transformer
- arxiv url: http://arxiv.org/abs/2209.15001v1
- Date: Thu, 29 Sep 2022 17:57:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 16:00:25.775306
- Title: Dilated Neighborhood Attention Transformer
- Title(参考訳): 拡張型近所注意変圧器
- Authors: Ali Hassani, Humphrey Shi
- Abstract要約: 新しい階層型視覚変換器であるDilated Neighborhood Attention Transformer (DiNAT)を紹介する。
DiNATはNATやSwinといった注目ベースラインよりも大幅に改善されている。
我々の大規模モデルは、COCOオブジェクト検出における1.5%ボックスAP、COCOインスタンスセグメンテーションにおける1.3%マスクAP、ADE20Kセマンティックセグメンテーションにおける1.1%mIoUよりも優れている。
- 参考スコア(独自算出の注目度): 16.35767262996978
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers are quickly becoming one of the most heavily applied deep
learning architectures across modalities, domains, and tasks. In vision, on top
of ongoing efforts into plain transformers, hierarchical transformers have also
gained significant attention, thanks to their performance and easy integration
into existing frameworks. These models typically employ localized attention
mechanisms, such as the sliding-window Neighborhood Attention (NA) or Swin
Transformer's Shifted Window Self Attention. While effective at reducing self
attention's quadratic complexity, local attention weakens two of the most
desirable properties of self attention: long range inter-dependency modeling,
and global receptive field. In this paper, we introduce Dilated Neighborhood
Attention (DiNA), a natural, flexible and efficient extension to NA that can
capture more global context and expand receptive fields exponentially at no
additional cost. NA's local attention and DiNA's sparse global attention
complement each other, and therefore we introduce Dilated Neighborhood
Attention Transformer (DiNAT), a new hierarchical vision transformer built upon
both. DiNAT variants enjoy significant improvements over attention-based
baselines such as NAT and Swin, as well as modern convolutional baseline
ConvNeXt. Our Large model is ahead of its Swin counterpart by 1.5% box AP in
COCO object detection, 1.3% mask AP in COCO instance segmentation, and 1.1%
mIoU in ADE20K semantic segmentation, and faster in throughput. We believe
combinations of NA and DiNA have the potential to empower various tasks beyond
those presented in this paper. To support and encourage research in this
direction, in vision and beyond, we open-source our project at:
https://github.com/SHI-Labs/Neighborhood-Attention-Transformer.
- Abstract(参考訳): トランスフォーマーは急速に、モダリティ、ドメイン、タスクにまたがる、最も大きなディープラーニングアーキテクチャの1つになりつつある。
ビジョンでは、現在進行中のプレーントランスフォーマーへの取り組みに加えて、パフォーマンスと既存のフレームワークへの容易な統合のおかげで、階層トランスフォーマーも大きな注目を集めている。
これらのモデルは、通常、スライディングウィンドウ近傍注意 (na) やスウィントランスのシフトウィンドウ自己注意 (shifted window self attention) のような局所的な注意機構を用いる。
自己注意の二次的複雑性の低減に効果があるが、局所的な注意は自己注意の最も望ましい2つの特性、すなわち長距離依存間モデリングとグローバル受容場を弱める。
本稿では,自然でフレキシブルで効率的なNA拡張であるDilated Neighborhood Attention (DiNA)を紹介する。
na の局所的注意力と dina のグローバル的注意力の欠如は相互に補完するものであり,それゆえ dilated neighborhood attention transformer (dinat) を導入する。
DiNATの派生型は、NATやSwinといった注目ベースのベースラインや、現代の畳み込みベースラインであるConvNeXtよりも大幅に改善されている。
当社の大規模モデルは,cocoオブジェクト検出では1.5%,cocoインスタンスセグメンテーションでは1.3%,ade20k意味セグメンテーションでは1.1%,スループットでは1.1%,swinよりも先行しています。
我々は, NAとDiNAの組み合わせが, 本論文で紹介したタスクを超えて, 様々なタスクに力を与える可能性があると考えている。
この方向、ビジョン、そしてそれ以上の研究を支援し、奨励するために、我々のプロジェクトをhttps://github.com/SHI-Labs/Neighborhood-Attention-Transformerでオープンソース化しました。
関連論文リスト
- ACC-ViT : Atrous Convolution's Comeback in Vision Transformers [5.224344210588584]
我々は,地域情報とグローバル情報の両方を適応的に統合できる,地域的・疎外的な注意の融合であるAtrous Attentionを紹介した。
また、標準的な視覚タスクの慣行に従って、ACC-ViTと呼ばれる一般的な視覚変換器のバックボーンを提案する。
そのためACC-ViTは強力なビジョンバックボーンであり、小さなデータセットを持つニッチアプリケーションには理想的だ。
論文 参考訳(メタデータ) (2024-03-07T04:05:16Z) - Exploring Consistency in Cross-Domain Transformer for Domain Adaptive
Semantic Segmentation [51.10389829070684]
ドメインギャップは、自己注意の相違を引き起こす可能性がある。
このギャップのため、変圧器は、ターゲット領域の精度を低下させる刺激領域または画素に付随する。
ドメイン横断の注意層を持つアテンションマップに適応する。
論文 参考訳(メタデータ) (2022-11-27T02:40:33Z) - MAFormer: A Transformer Network with Multi-scale Attention Fusion for
Visual Recognition [45.68567088645708]
マルチスケールアテンションフュージョンを変換器(MAFormer)に導入する。
MAFormerは、視覚認識のためのデュアルストリームフレームワークにおいて、局所的な集約とグローバルな特徴抽出について検討する。
私たちのMAFormerは、一般的な視覚タスクで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-08-31T06:29:27Z) - Neighborhood Attention Transformer [24.478343522484604]
本稿では,視覚に対する第1の効率的かつスケーラブルなスライディングウインドウアテンション機構であるNeighborhood Attention(NA)を紹介する。
NAはピクセルワイド操作であり、最寄りの画素に自己注意(SA)を局在させる。
我々はNATTENNeighborhood Attention Extensionを開発し、NAがSwinのWSAよりも40%高速に動作できるようにする。
論文 参考訳(メタデータ) (2022-04-14T17:55:15Z) - BOAT: Bilateral Local Attention Vision Transformer [70.32810772368151]
ViTやDeiTといった初期のビジョントランスフォーマーは、パッチの数が多ければ計算コストがかかるグローバルな自己アテンションを採用している。
最近のビジョントランスフォーマーでは、ローカルウィンドウ内で自己アテンションが計算されるローカル自己アテンション機構を採用している。
本稿では,特徴空間の局所的注意と画像空間の局所的注意とを融合した両眼的視線変換器(BOAT)を提案する。
論文 参考訳(メタデータ) (2022-01-31T07:09:50Z) - Locally Shifted Attention With Early Global Integration [93.5766619842226]
本稿では,視覚変換器の初期層において,大域的相互作用と局所的相互作用の微粒化を可能にする手法を提案する。
CIFAR10, CIFAR100, ImageNetにおける画像分類において, 畳み込み法と変圧器法の両方よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-12-09T18:12:24Z) - Focal Self-attention for Local-Global Interactions in Vision
Transformers [90.9169644436091]
局所的局所的相互作用と粗大な大域的相互作用の両方を包含する新しいメカニズムである焦点自己アテンションを提示する。
焦点自己アテンションを用いて、最先端の視覚変換器よりも優れた性能を実現する、Focal Transformerと呼ばれる新しい視覚変換器モデルを提案する。
論文 参考訳(メタデータ) (2021-07-01T17:56:09Z) - LocalViT: Bringing Locality to Vision Transformers [132.42018183859483]
線、エッジ、形状、さらにはオブジェクトなどの構造に関連するため、画像には局所性が不可欠です。
フィードフォワードネットワークに奥行き畳み込みを導入することで,視覚トランスフォーメーションに局所性を加える。
この一見シンプルなソリューションは、フィードフォワードネットワークと反転残留ブロックの比較に触発されます。
論文 参考訳(メタデータ) (2021-04-12T17:59:22Z) - OmniNet: Omnidirectional Representations from Transformers [49.23834374054286]
本稿ではトランスフォーマー(OmniNet)からのOmnidirect Representationsを提案する。
OmniNetでは、厳密に水平な受容フィールドを維持する代わりに、各トークンはネットワーク全体のすべてのトークンに参加することができる。
自動回帰言語モデリング、機械翻訳、長距離アリーナ(LRA)、画像認識に関する実験が行われている。
論文 参考訳(メタデータ) (2021-03-01T15:31:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。