論文の概要: RegionViT: Regional-to-Local Attention for Vision Transformers
- arxiv url: http://arxiv.org/abs/2106.02689v1
- Date: Fri, 4 Jun 2021 19:57:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 18:12:34.162359
- Title: RegionViT: Regional-to-Local Attention for Vision Transformers
- Title(参考訳): regionvit: 視覚トランスフォーマーのための地域間注意
- Authors: Chun-Fu Chen, Rameswar Panda, Quanfu Fan
- Abstract要約: ビジョントランスフォーマー(ViT)は、画像分類における畳み込みニューラルネットワーク(CNN)に匹敵する結果を達成するための強力な能力を示している。
本稿では,ピラミッド構造を取り入れた新しい建築物を提案する。
我々のアプローチは、多くの並行処理を含む最先端のViT亜種に匹敵する、あるいは同等である。
- 参考スコア(独自算出の注目度): 17.70988054450176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision transformer (ViT) has recently showed its strong capability in
achieving comparable results to convolutional neural networks (CNNs) on image
classification. However, vanilla ViT simply inherits the same architecture from
the natural language processing directly, which is often not optimized for
vision applications. Motivated by this, in this paper, we propose a new
architecture that adopts the pyramid structure and employ a novel
regional-to-local attention rather than global self-attention in vision
transformers. More specifically, our model first generates regional tokens and
local tokens from an image with different patch sizes, where each regional
token is associated with a set of local tokens based on the spatial location.
The regional-to-local attention includes two steps: first, the regional
self-attention extract global information among all regional tokens and then
the local self-attention exchanges the information among one regional token and
the associated local tokens via self-attention. Therefore, even though local
self-attention confines the scope in a local region but it can still receive
global information. Extensive experiments on three vision tasks, including
image classification, object detection and action recognition, show that our
approach outperforms or is on par with state-of-the-art ViT variants including
many concurrent works. Our source codes and models will be publicly available.
- Abstract(参考訳): vision transformer (vit) は最近、画像分類において畳み込みニューラルネットワーク (cnns) に匹敵する結果を達成する能力を示した。
しかし、vanilla vitは単に自然言語処理から直接同じアーキテクチャを継承しており、視覚アプリケーションに最適化されていないことが多い。
そこで,本稿では,ピラミッド構造を採用し,視覚トランスフォーマのグローバル自己着脱よりも,新しい地域間注意を取り入れる新しいアーキテクチャを提案する。
より具体的には,本モデルではまず,異なるパッチサイズの画像から局所トークンと局所トークンを生成し,各局所トークンを空間的位置に基づく局所トークンの集合に関連付ける。
地域から地域への注目は、まず、すべての地域トークン間のグローバル情報を抽出するとともに、各地域トークンと関連するローカルトークン間の情報を、地域自記を通じて交換する。
したがって、局所的な自己意識は地域の範囲を限定するが、グローバルな情報を受け取ることができる。
画像分類,物体検出,行動認識を含む3つの視覚課題に対する広範囲な実験により,我々のアプローチは,多くの同時作業を含む最先端のViT変種よりも優れているか,あるいは同等であることが示された。
ソースコードとモデルは公開される予定だ。
関連論文リスト
- TCFormer: Visual Recognition via Token Clustering Transformer [79.24723479088097]
本稿では,意味に基づく動的視覚トークンを生成するToken Clustering Transformer (TCFormer)を提案する。
ダイナミックトークンには2つの重要な特徴がある:(1)同じ視覚トークンを用いて類似の意味を持つ画像領域を表現し、(2)それらの領域が隣接していない場合でも、(2)貴重な詳細を持つ領域に集中し、細かなトークンを用いてそれらを表現する。
論文 参考訳(メタデータ) (2024-07-16T02:26:18Z) - Other Tokens Matter: Exploring Global and Local Features of Vision Transformers for Object Re-Identification [63.147482497821166]
我々はまず,ViTのグローバルおよびローカルな特徴の影響を探求し,高性能オブジェクトRe-IDのための新しいグローバルローカ変換器(GLTrans)を提案する。
提案手法は,4つのオブジェクトRe-IDベンチマークにおいて優れた性能を実現する。
論文 参考訳(メタデータ) (2024-04-23T12:42:07Z) - Semantic-Aware Local-Global Vision Transformer [24.55333039729068]
セマンティック・アウェア・ローカル・グローバル・ビジョン・トランス(SALG)を提案する。
我々のSALGは教師なしの方法でセマンティックセグメンテーションを行い、画像の根底にあるセマンティックセグメンテーションを探索する。
このモデルでは,各トークンの特徴を学習する際に,グローバルなビューを得ることができる。
論文 参考訳(メタデータ) (2022-11-27T03:16:00Z) - L2G: A Simple Local-to-Global Knowledge Transfer Framework for Weakly
Supervised Semantic Segmentation [67.26984058377435]
高品質なオブジェクトアテンションマイニングのための簡易なローカル・グローバルな知識伝達フレームワークであるL2Gについて述べる。
本フレームワークは,グローバルな視点から収集したリッチオブジェクトの詳細知識をグローバルネットワークで学習する。
実験の結果,PASCAL VOC 2012とMS COCO 2014の検証セットにおいて,72.1%,44.2%のmIoU値が得られた。
論文 参考訳(メタデータ) (2022-04-07T04:31:32Z) - Adaptively Enhancing Facial Expression Crucial Regions via Local
Non-Local Joint Network [37.665344656227624]
表情認識の特徴学習において, 顔重要領域を適応的に照らすために, 局所的非局所関節ネットワークを提案する。
提案手法は,5つのベンチマークデータセット上での最先端手法と比較して,より競争力のある性能を実現する。
論文 参考訳(メタデータ) (2022-03-26T10:58:25Z) - BOAT: Bilateral Local Attention Vision Transformer [70.32810772368151]
ViTやDeiTといった初期のビジョントランスフォーマーは、パッチの数が多ければ計算コストがかかるグローバルな自己アテンションを採用している。
最近のビジョントランスフォーマーでは、ローカルウィンドウ内で自己アテンションが計算されるローカル自己アテンション機構を採用している。
本稿では,特徴空間の局所的注意と画像空間の局所的注意とを融合した両眼的視線変換器(BOAT)を提案する。
論文 参考訳(メタデータ) (2022-01-31T07:09:50Z) - Locally Shifted Attention With Early Global Integration [93.5766619842226]
本稿では,視覚変換器の初期層において,大域的相互作用と局所的相互作用の微粒化を可能にする手法を提案する。
CIFAR10, CIFAR100, ImageNetにおける画像分類において, 畳み込み法と変圧器法の両方よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-12-09T18:12:24Z) - RAMS-Trans: Recurrent Attention Multi-scale Transformer forFine-grained
Image Recognition [26.090419694326823]
地域注意の局所化と増幅は重要な要素であり、畳み込みニューラルネットワーク(CNN)ベースのアプローチによって多くの研究がなされている。
本稿では,変圧器の自己注意を用いて識別領域の注意を学習する,繰り返し注意型マルチスケール変圧器(RAMS-Trans)を提案する。
論文 参考訳(メタデータ) (2021-07-17T06:22:20Z) - LocalViT: Bringing Locality to Vision Transformers [132.42018183859483]
線、エッジ、形状、さらにはオブジェクトなどの構造に関連するため、画像には局所性が不可欠です。
フィードフォワードネットワークに奥行き畳み込みを導入することで,視覚トランスフォーメーションに局所性を加える。
この一見シンプルなソリューションは、フィードフォワードネットワークと反転残留ブロックの比較に触発されます。
論文 参考訳(メタデータ) (2021-04-12T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。