論文の概要: Locally Shifted Attention With Early Global Integration
- arxiv url: http://arxiv.org/abs/2112.05080v1
- Date: Thu, 9 Dec 2021 18:12:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-10 13:50:09.841815
- Title: Locally Shifted Attention With Early Global Integration
- Title(参考訳): 早期グローバル統合によるローカルシフト注意
- Authors: Shelly Sheynin, Sagie Benaim, Adam Polyak, Lior Wolf
- Abstract要約: 本稿では,視覚変換器の初期層において,大域的相互作用と局所的相互作用の微粒化を可能にする手法を提案する。
CIFAR10, CIFAR100, ImageNetにおける画像分類において, 畳み込み法と変圧器法の両方よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 93.5766619842226
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent work has shown the potential of transformers for computer vision
applications. An image is first partitioned into patches, which are then used
as input tokens for the attention mechanism. Due to the expensive quadratic
cost of the attention mechanism, either a large patch size is used, resulting
in coarse-grained global interactions, or alternatively, attention is applied
only on a local region of the image, at the expense of long-range interactions.
In this work, we propose an approach that allows for both coarse global
interactions and fine-grained local interactions already at early layers of a
vision transformer.
At the core of our method is the application of local and global attention
layers. In the local attention layer, we apply attention to each patch and its
local shifts, resulting in virtually located local patches, which are not bound
to a single, specific location. These virtually located patches are then used
in a global attention layer. The separation of the attention layer into local
and global counterparts allows for a low computational cost in the number of
patches, while still supporting data-dependent localization already at the
first layer, as opposed to the static positioning in other visual transformers.
Our method is shown to be superior to both convolutional and transformer-based
methods for image classification on CIFAR10, CIFAR100, and ImageNet. Code is
available at: https://github.com/shellysheynin/Locally-SAG-Transformer.
- Abstract(参考訳): 最近の研究はコンピュータビジョン応用のためのトランスフォーマーの可能性を示している。
イメージは最初にパッチに分割され、次にアテンションメカニズムの入力トークンとして使用される。
注意機構の高価な二次コストのため、大きなパッチサイズが使われ、粗い大域的な相互作用が生じるか、あるいは、長距離の相互作用を犠牲にして、画像の局所領域にのみ注意が適用される。
本研究では,視覚変換器の初期層において,大域的相互作用と局所的相互作用の微細化を両立させる手法を提案する。
我々の手法の核心は、局所的およびグローバルな注意層の適用である。
局所的な注意層では、各パッチとその局所的なシフトに注意を向け、事実上位置した局所的なパッチを1つの特定の場所に縛られない。
これらの仮想的位置のパッチは、グローバルアテンション層で使用される。
アテンション層をローカルとグローバルに分離することで、パッチ数の計算コストが低くなり、他の視覚トランスフォーマーの静的な位置決めとは対照的に、第1層ではすでにデータ依存のローカライズがサポートされている。
CIFAR10, CIFAR100, ImageNetにおける画像分類において, 畳み込み法と変圧器法の両方よりも優れていることを示す。
コードは、https://github.com/shellysheynin/Locally-SAG-Transformerで入手できる。
関連論文リスト
- LGFCTR: Local and Global Feature Convolutional Transformer for Image
Matching [8.503217766507584]
局所的文脈とグローバル構造の両方を捉えるために,新しい畳み込み変換器を提案する。
普遍的なFPNライクなフレームワークは、トランスフォーマーによるクロスデコーダと同様に、自己エンコーダ内のグローバル構造をキャプチャする。
新たなレグレッションベースのサブピクセルリファインメントモジュールは、微粒なウィンドウ特徴を微粒な位置ずれレグレッションに活用する。
論文 参考訳(メタデータ) (2023-11-29T12:06:19Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - BOAT: Bilateral Local Attention Vision Transformer [70.32810772368151]
ViTやDeiTといった初期のビジョントランスフォーマーは、パッチの数が多ければ計算コストがかかるグローバルな自己アテンションを採用している。
最近のビジョントランスフォーマーでは、ローカルウィンドウ内で自己アテンションが計算されるローカル自己アテンション機構を採用している。
本稿では,特徴空間の局所的注意と画像空間の局所的注意とを融合した両眼的視線変換器(BOAT)を提案する。
論文 参考訳(メタデータ) (2022-01-31T07:09:50Z) - TransVPR: Transformer-based place recognition with multi-level attention
aggregation [9.087163485833058]
本稿では,視覚変換器に基づく新しい総合的位置認識モデルTransVPRを提案する。
TransVPRは、いくつかの実世界のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-01-06T10:20:24Z) - Global and Local Alignment Networks for Unpaired Image-to-Image
Translation [170.08142745705575]
未ペア画像から画像への変換の目的は、対象領域のスタイルを反映した出力画像を作成することである。
既存の手法では内容変化に注意が払われていないため、ソース画像からの意味情報は翻訳中の劣化に悩まされる。
我々はGLA-Net(Global and Local Alignment Networks)という新しいアプローチを導入する。
本手法は既存の手法よりもシャープでリアルな画像を効果的に生成する。
論文 参考訳(メタデータ) (2021-11-19T18:01:54Z) - Local-to-Global Self-Attention in Vision Transformers [130.0369761612812]
トランスフォーマーはコンピュータビジョンタスクに大きな可能性を示した。
最近のTransformerモデルは階層設計を採用しており、セルフアテンションはローカルウィンドウ内でのみ計算される。
この設計は効率を大幅に改善するが、早い段階ではグローバルな特徴推論が欠如している。
本研究では,トランスフォーマーのマルチパス構造を設計し,各ステージにおける複数の粒度での局所的・言語的推論を可能にする。
論文 参考訳(メタデータ) (2021-07-10T02:34:55Z) - CAT: Cross Attention in Vision Transformer [39.862909079452294]
クロスアテンション(Cross Attention)と呼ばれるトランスフォーマーにおける新しいアテンション機構を提案する。
画像全体ではなく、イメージパッチの内部に注意を置き、ローカル情報をキャプチャする。
我々は、他の視覚タスクのためのCAT(Cross Attention Transformer)と呼ばれる階層的なネットワークを構築します。
論文 参考訳(メタデータ) (2021-06-10T14:38:32Z) - LocalViT: Bringing Locality to Vision Transformers [132.42018183859483]
線、エッジ、形状、さらにはオブジェクトなどの構造に関連するため、画像には局所性が不可欠です。
フィードフォワードネットワークに奥行き畳み込みを導入することで,視覚トランスフォーメーションに局所性を加える。
この一見シンプルなソリューションは、フィードフォワードネットワークと反転残留ブロックの比較に触発されます。
論文 参考訳(メタデータ) (2021-04-12T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。