論文の概要: KVT: k-NN Attention for Boosting Vision Transformers
- arxiv url: http://arxiv.org/abs/2106.00515v1
- Date: Fri, 28 May 2021 06:49:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-06 05:10:13.316388
- Title: KVT: k-NN Attention for Boosting Vision Transformers
- Title(参考訳): KVT: ビジョン変換器の強化のためのk-NNアテンション
- Authors: Pichao Wang and Xue Wang and Fan Wang and Ming Lin and Shuning Chang
and Wen Xie and Hao Li and Rong Jin
- Abstract要約: 我々は、視力変換器の強化を目的とした、k-NNアテンションと呼ばれるスパースアテンション方式を提案する。
提案したk-NNアテンションは、畳み込み操作を導入することなくCNNの局所バイアスを自然に継承する。
理論的にも経験的にも、$k$-NNの注意力は入力トークンからのノイズの蒸留やトレーニングの高速化に有効である。
- 参考スコア(独自算出の注目度): 44.189475770152185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Convolutional Neural Networks (CNNs) have dominated computer vision for
years, due to its ability in capturing locality and translation invariance.
Recently, many vision transformer architectures have been proposed and they
show promising performance. A key component in vision transformers is the
fully-connected self-attention which is more powerful than CNNs in modelling
long range dependencies. However, since the current dense self-attention uses
all image patches (tokens) to compute attention matrix, it may neglect locality
of images patches and involve noisy tokens (e.g., clutter background and
occlusion), leading to a slow training process and potentially degradation of
performance. To address these problems, we propose a sparse attention scheme,
dubbed k-NN attention, for boosting vision transformers. Specifically, instead
of involving all the tokens for attention matrix calculation, we only select
the top-k similar tokens from the keys for each query to compute the attention
map. The proposed k-NN attention naturally inherits the local bias of CNNs
without introducing convolutional operations, as nearby tokens tend to be more
similar than others. In addition, the k-NN attention allows for the exploration
of long range correlation and at the same time filter out irrelevant tokens by
choosing the most similar tokens from the entire image. Despite its simplicity,
we verify, both theoretically and empirically, that $k$-NN attention is
powerful in distilling noise from input tokens and in speeding up training.
Extensive experiments are conducted by using ten different vision transformer
architectures to verify that the proposed k-NN attention can work with any
existing transformer architectures to improve its prediction performance.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は、局所性と翻訳不変性を捉える能力のため、コンピュータビジョンを支配してきた。
近年,視覚トランスフォーマーアーキテクチャが提案され,有望な性能を示している。
vision transformersの重要なコンポーネントは、長距離依存関係のモデリングにおいてcnnよりも強力な、完全接続されたセルフアテンションである。
しかし、現在の密集した自己注意は注意行列を計算するためにすべてのイメージパッチ(トークン)を使用するため、画像パッチの局所性を無視し、ノイズの多いトークン(例えば、背景や閉塞)を伴い、訓練プロセスが遅くなり、性能が低下する可能性がある。
これらの問題に対処するため,我々は視覚トランスフォーマーを増加させるために,k-nn attention と呼ばれる分散注意スキームを提案する。
具体的には、アテンション行列計算のためのトークンを全て含む代わりに、各クエリのキーからトップkの類似トークンを選択してアテンションマップを計算する。
提案したk-NNの注意は、近くのトークンが他のトークンと似ている傾向があるため、畳み込み操作を導入することなくCNNの局所バイアスを自然に継承する。
さらに、k-nnの注意は、長距離相関の探索を可能にすると同時に、画像全体から最も類似したトークンを選択することで、無関係なトークンをフィルタリングする。
その単純さにもかかわらず、理論的にも経験的にも、$k$-NNの注意は入力トークンからのノイズの蒸留やトレーニングの高速化に強力である。
10種類の異なる視覚トランスフォーマーアーキテクチャを用いて、提案するk-nnの注意が既存のトランスフォーマーアーキテクチャと動作し、予測性能を向上させることを検証した。
関連論文リスト
- LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens for Remote Sensing Image Interpretation [37.72775203647514]
本稿では,学習可能なメタトークンを用いてスパーストークンを定式化し,キー情報を効果的に学習し,推論速度を向上させることを提案する。
視覚トークンが密集した早期にデュアル・クロス・アテンション(DCA)を用いることで,様々な大きさの階層型アーキテクチャLeMeViTが得られる。
分類と密接な予測タスクの実験結果は、LeMeViTがベースラインモデルと比較して1.7倍のスピードアップ、少ないパラメータ、競争性能を持っていることを示している。
論文 参考訳(メタデータ) (2024-05-16T03:26:06Z) - Robustifying Token Attention for Vision Transformers [72.07710236246285]
ビジョントランスフォーマー(ViT)は、一般的な汚職の存在下でも精度が著しく低下している。
本稿では,2つの一般的な手法を用いて,より注意を安定させる2つの手法を提案する。
まず,Token-Aware Average Pooling (TAP)モジュールは,各トークンの局所的近傍に注意機構に参加することを奨励する。
第二に、出力トークンは、ほんの少しだけに集中するのではなく、多様な入力トークンの集合から情報を集約するように強制する。
論文 参考訳(メタデータ) (2023-03-20T14:04:40Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - Transformer Compressed Sensing via Global Image Tokens [4.722333456749269]
低解像度入力に自然に画像を埋め込む新しい画像分解法を提案する。
我々は、よく知られたCS-MRIニューラルネットワークのCNNコンポーネントをTNNブロックに置き換え、KDによる改善を実証する。
論文 参考訳(メタデータ) (2022-03-24T05:56:30Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z) - CAT: Cross Attention in Vision Transformer [39.862909079452294]
クロスアテンション(Cross Attention)と呼ばれるトランスフォーマーにおける新しいアテンション機構を提案する。
画像全体ではなく、イメージパッチの内部に注意を置き、ローカル情報をキャプチャする。
我々は、他の視覚タスクのためのCAT(Cross Attention Transformer)と呼ばれる階層的なネットワークを構築します。
論文 参考訳(メタデータ) (2021-06-10T14:38:32Z) - DynamicViT: Efficient Vision Transformers with Dynamic Token
Sparsification [134.9393799043401]
入力に基づいて冗長なトークンを抽出する動的トークンスペーシフィケーションフレームワークを提案する。
入力トークンの66%を階層的にプルーニングすることで,FLOPの31%37%を大幅に削減し,スループットを40%以上向上する。
DynamicViTモデルは、ImageNetの最先端CNNやビジョントランスフォーマーと比較して、非常に競争力のある複雑性/精度のトレードオフを実現することができる。
論文 参考訳(メタデータ) (2021-06-03T17:57:41Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image
Classification [17.709880544501758]
異なるサイズの画像パッチを組み合わせて、より強力な画像特徴を生成するデュアルブランチトランスを提案します。
我々のアプローチは、異なる計算複雑性の2つの別々の分岐を持つ小さなパッチトークンと大きなパッチトークンを処理します。
私たちの提案するクロスアテンションは、計算とメモリの複雑さの両方に線形時間しか必要としない。
論文 参考訳(メタデータ) (2021-03-27T13:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。