論文の概要: CAT: Cross Attention in Vision Transformer
- arxiv url: http://arxiv.org/abs/2106.05786v1
- Date: Thu, 10 Jun 2021 14:38:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-11 14:39:02.444059
- Title: CAT: Cross Attention in Vision Transformer
- Title(参考訳): CAT:視覚変換器における交差注意
- Authors: Hezheng Lin, Xing Cheng, Xiangyu Wu, Fan Yang, Dong Shen, Zhongyuan
Wang, Qing Song, Wei Yuan
- Abstract要約: クロスアテンション(Cross Attention)と呼ばれるトランスフォーマーにおける新しいアテンション機構を提案する。
画像全体ではなく、イメージパッチの内部に注意を置き、ローカル情報をキャプチャする。
我々は、他の視覚タスクのためのCAT(Cross Attention Transformer)と呼ばれる階層的なネットワークを構築します。
- 参考スコア(独自算出の注目度): 39.862909079452294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since Transformer has found widespread use in NLP, the potential of
Transformer in CV has been realized and has inspired many new approaches.
However, the computation required for replacing word tokens with image patches
for Transformer after the tokenization of the image is vast(e.g., ViT), which
bottlenecks model training and inference. In this paper, we propose a new
attention mechanism in Transformer termed Cross Attention, which alternates
attention inner the image patch instead of the whole image to capture local
information and apply attention between image patches which are divided from
single-channel feature maps capture global information. Both operations have
less computation than standard self-attention in Transformer. By alternately
applying attention inner patch and between patches, we implement cross
attention to maintain the performance with lower computational cost and build a
hierarchical network called Cross Attention Transformer(CAT) for other vision
tasks. Our base model achieves state-of-the-arts on ImageNet-1K, and improves
the performance of other methods on COCO and ADE20K, illustrating that our
network has the potential to serve as general backbones. The code and models
are available at \url{https://github.com/linhezheng19/CAT}.
- Abstract(参考訳): Transformer は NLP で広く利用されているため、CV における Transformer の可能性は実現され、多くの新しいアプローチに影響を与えた。
しかし、単語トークンをTransformerのイメージパッチに置き換えるために必要な計算は、画像のトークン化後に大きくなり(例:ViT)、モデルのトレーニングと推論がボトルネックとなる。
本稿では,画像パッチ内の注意を,画像全体ではなく画像パッチ内で交互に取り替え,局所情報をキャプチャし,単一チャネル特徴マップから分割した画像パッチ間で注意を付与する,クロスアテンションと呼ばれる新しい注意機構を提案する。
どちらの操作も、Transformerの通常の自己アテンションよりも計算量が少ない。
内部パッチとパッチを交互に適用することにより、計算コストの低い性能を維持するためにクロスアテンションを実装し、他の視覚タスクに対してクロスアテンショントランスフォーマー(CAT)と呼ばれる階層ネットワークを構築する。
ベースモデルはImageNet-1Kの最先端を実現し,COCOおよびADE20K上の他の手法の性能を改善し,ネットワークが一般的なバックボーンとして機能する可能性を示している。
コードとモデルは \url{https://github.com/linhezheng19/cat} で入手できる。
関連論文リスト
- Cross Aggregation Transformer for Image Restoration [48.390140041131886]
近年,畳み込みニューラルネットワーク(CNN)に代えて,画像復元にトランスフォーマーアーキテクチャが導入されている。
上記の問題に対処するため,新しい画像復元モデルであるCross Aggregation Transformer (CAT)を提案する。
我々のCATの中核はRectangle-Window Self-Attention (Rwin-SA)であり、これは異なる頭部における水平および垂直の矩形窓の注意を平行に利用し、注意領域を広げ、異なる窓を横断する特徴を集約する。
さらに,CNNの帰納バイアス(例えば翻訳における帰納的バイアス)を組み込んだ自己注意機構を補完するLocality Complementary Moduleを提案する。
論文 参考訳(メタデータ) (2022-11-24T15:09:33Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - KVT: k-NN Attention for Boosting Vision Transformers [44.189475770152185]
我々は、視力変換器の強化を目的とした、k-NNアテンションと呼ばれるスパースアテンション方式を提案する。
提案したk-NNアテンションは、畳み込み操作を導入することなくCNNの局所バイアスを自然に継承する。
理論的にも経験的にも、$k$-NNの注意力は入力トークンからのノイズの蒸留やトレーニングの高速化に有効である。
論文 参考訳(メタデータ) (2021-05-28T06:49:10Z) - CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image
Classification [17.709880544501758]
異なるサイズの画像パッチを組み合わせて、より強力な画像特徴を生成するデュアルブランチトランスを提案します。
我々のアプローチは、異なる計算複雑性の2つの別々の分岐を持つ小さなパッチトークンと大きなパッチトークンを処理します。
私たちの提案するクロスアテンションは、計算とメモリの複雑さの両方に線形時間しか必要としない。
論文 参考訳(メタデータ) (2021-03-27T13:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。