Fugu-MT 論文翻訳(概要): Dilated Neighborhood Attention Transformer

論文の概要: Dilated Neighborhood Attention Transformer

arxiv url: http://arxiv.org/abs/2209.15001v1
Date: Thu, 29 Sep 2022 17:57:08 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-30 16:00:25.775306
Title: Dilated Neighborhood Attention Transformer
Title（参考訳）: 拡張型近所注意変圧器
Authors: Ali Hassani, Humphrey Shi
Abstract要約: 新しい階層型視覚変換器であるDilated Neighborhood Attention Transformer (DiNAT)を紹介する。 DiNATはNATやSwinといった注目ベースラインよりも大幅に改善されている。我々の大規模モデルは、COCOオブジェクト検出における1.5%ボックスAP、COCOインスタンスセグメンテーションにおける1.3%マスクAP、ADE20Kセマンティックセグメンテーションにおける1.1%mIoUよりも優れている。
参考スコア（独自算出の注目度）: 16.35767262996978
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformers are quickly becoming one of the most heavily applied deep learning architectures across modalities, domains, and tasks. In vision, on top of ongoing efforts into plain transformers, hierarchical transformers have also gained significant attention, thanks to their performance and easy integration into existing frameworks. These models typically employ localized attention mechanisms, such as the sliding-window Neighborhood Attention (NA) or Swin Transformer's Shifted Window Self Attention. While effective at reducing self attention's quadratic complexity, local attention weakens two of the most desirable properties of self attention: long range inter-dependency modeling, and global receptive field. In this paper, we introduce Dilated Neighborhood Attention (DiNA), a natural, flexible and efficient extension to NA that can capture more global context and expand receptive fields exponentially at no additional cost. NA's local attention and DiNA's sparse global attention complement each other, and therefore we introduce Dilated Neighborhood Attention Transformer (DiNAT), a new hierarchical vision transformer built upon both. DiNAT variants enjoy significant improvements over attention-based baselines such as NAT and Swin, as well as modern convolutional baseline ConvNeXt. Our Large model is ahead of its Swin counterpart by 1.5% box AP in COCO object detection, 1.3% mask AP in COCO instance segmentation, and 1.1% mIoU in ADE20K semantic segmentation, and faster in throughput. We believe combinations of NA and DiNA have the potential to empower various tasks beyond those presented in this paper. To support and encourage research in this direction, in vision and beyond, we open-source our project at: https://github.com/SHI-Labs/Neighborhood-Attention-Transformer.
Abstract（参考訳）: トランスフォーマーは急速に、モダリティ、ドメイン、タスクにまたがる、最も大きなディープラーニングアーキテクチャの1つになりつつある。ビジョンでは、現在進行中のプレーントランスフォーマーへの取り組みに加えて、パフォーマンスと既存のフレームワークへの容易な統合のおかげで、階層トランスフォーマーも大きな注目を集めている。これらのモデルは、通常、スライディングウィンドウ近傍注意 (na) やスウィントランスのシフトウィンドウ自己注意 (shifted window self attention) のような局所的な注意機構を用いる。自己注意の二次的複雑性の低減に効果があるが、局所的な注意は自己注意の最も望ましい2つの特性、すなわち長距離依存間モデリングとグローバル受容場を弱める。本稿では,自然でフレキシブルで効率的なNA拡張であるDilated Neighborhood Attention (DiNA)を紹介する。 na の局所的注意力と dina のグローバル的注意力の欠如は相互に補完するものであり,それゆえ dilated neighborhood attention transformer (dinat) を導入する。 DiNATの派生型は、NATやSwinといった注目ベースのベースラインや、現代の畳み込みベースラインであるConvNeXtよりも大幅に改善されている。当社の大規模モデルは,cocoオブジェクト検出では1.5%,cocoインスタンスセグメンテーションでは1.3%,ade20k意味セグメンテーションでは1.1%,スループットでは1.1%,swinよりも先行しています。我々は, NAとDiNAの組み合わせが, 本論文で紹介したタスクを超えて, 様々なタスクに力を与える可能性があると考えている。この方向、ビジョン、そしてそれ以上の研究を支援し、奨励するために、我々のプロジェクトをhttps://github.com/SHI-Labs/Neighborhood-Attention-Transformerでオープンソース化しました。

関連論文リスト

ACC-ViT : Atrous Convolution's Comeback in Vision Transformers [5.224344210588584]
我々は,地域情報とグローバル情報の両方を適応的に統合できる,地域的・疎外的な注意の融合であるAtrous Attentionを紹介した。また、標準的な視覚タスクの慣行に従って、ACC-ViTと呼ばれる一般的な視覚変換器のバックボーンを提案する。そのためACC-ViTは強力なビジョンバックボーンであり、小さなデータセットを持つニッチアプリケーションには理想的だ。
論文参考訳（メタデータ） (2024-03-07T04:05:16Z)
Exploring Consistency in Cross-Domain Transformer for Domain Adaptive Semantic Segmentation [51.10389829070684]
ドメインギャップは、自己注意の相違を引き起こす可能性がある。このギャップのため、変圧器は、ターゲット領域の精度を低下させる刺激領域または画素に付随する。ドメイン横断の注意層を持つアテンションマップに適応する。
論文参考訳（メタデータ） (2022-11-27T02:40:33Z)
Efficient Image Generation with Variadic Attention Heads [66.9694645123474]
単変圧器のアテンションヘッドが複数の受容場に到達できるようにするための,単純かつ強力な手法を提案する。筆者らは、近隣意識(NA)を利用して画像を生成するためのStyleGANベースのアーキテクチャに組み込む手法を実証した。 StyleNATと呼ばれるこの作業により、FFHQで2.05のFIDを達成することができ、StyleGAN-XLよりも6%改善されています。
論文参考訳（メタデータ） (2022-11-10T18:55:48Z)
MAFormer: A Transformer Network with Multi-scale Attention Fusion for Visual Recognition [45.68567088645708]
マルチスケールアテンションフュージョンを変換器(MAFormer)に導入する。 MAFormerは、視覚認識のためのデュアルストリームフレームワークにおいて、局所的な集約とグローバルな特徴抽出について検討する。私たちのMAFormerは、一般的な視覚タスクで最先端のパフォーマンスを実現しています。
論文参考訳（メタデータ） (2022-08-31T06:29:27Z)
Neighborhood Attention Transformer [24.478343522484604]
本稿では,視覚に対する第1の効率的かつスケーラブルなスライディングウインドウアテンション機構であるNeighborhood Attention(NA)を紹介する。 NAはピクセルワイド操作であり、最寄りの画素に自己注意(SA)を局在させる。我々はNATTENNeighborhood Attention Extensionを開発し、NAがSwinのWSAよりも40%高速に動作できるようにする。
論文参考訳（メタデータ） (2022-04-14T17:55:15Z)
BOAT: Bilateral Local Attention Vision Transformer [70.32810772368151]
ViTやDeiTといった初期のビジョントランスフォーマーは、パッチの数が多ければ計算コストがかかるグローバルな自己アテンションを採用している。最近のビジョントランスフォーマーでは、ローカルウィンドウ内で自己アテンションが計算されるローカル自己アテンション機構を採用している。本稿では,特徴空間の局所的注意と画像空間の局所的注意とを融合した両眼的視線変換器(BOAT)を提案する。
論文参考訳（メタデータ） (2022-01-31T07:09:50Z)
Locally Shifted Attention With Early Global Integration [93.5766619842226]
本稿では,視覚変換器の初期層において,大域的相互作用と局所的相互作用の微粒化を可能にする手法を提案する。 CIFAR10, CIFAR100, ImageNetにおける画像分類において, 畳み込み法と変圧器法の両方よりも優れていることを示す。
論文参考訳（メタデータ） (2021-12-09T18:12:24Z)
Focal Self-attention for Local-Global Interactions in Vision Transformers [90.9169644436091]
局所的局所的相互作用と粗大な大域的相互作用の両方を包含する新しいメカニズムである焦点自己アテンションを提示する。焦点自己アテンションを用いて、最先端の視覚変換器よりも優れた性能を実現する、Focal Transformerと呼ばれる新しい視覚変換器モデルを提案する。
論文参考訳（メタデータ） (2021-07-01T17:56:09Z)
LocalViT: Bringing Locality to Vision Transformers [132.42018183859483]
線、エッジ、形状、さらにはオブジェクトなどの構造に関連するため、画像には局所性が不可欠です。フィードフォワードネットワークに奥行き畳み込みを導入することで,視覚トランスフォーメーションに局所性を加える。この一見シンプルなソリューションは、フィードフォワードネットワークと反転残留ブロックの比較に触発されます。
論文参考訳（メタデータ） (2021-04-12T17:59:22Z)
OmniNet: Omnidirectional Representations from Transformers [49.23834374054286]
本稿ではトランスフォーマー(OmniNet)からのOmnidirect Representationsを提案する。 OmniNetでは、厳密に水平な受容フィールドを維持する代わりに、各トークンはネットワーク全体のすべてのトークンに参加することができる。自動回帰言語モデリング、機械翻訳、長距離アリーナ(LRA)、画像認識に関する実験が行われている。
論文参考訳（メタデータ） (2021-03-01T15:31:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。