論文の概要: Multi-manifold Attention for Vision Transformers
- arxiv url: http://arxiv.org/abs/2207.08569v1
- Date: Mon, 18 Jul 2022 12:53:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 17:11:44.914414
- Title: Multi-manifold Attention for Vision Transformers
- Title(参考訳): 視覚トランスフォーマーの多次元注意
- Authors: Dimitrios Konstantinidis, Ilias Papastratis, Kosmas Dimitropoulos,
Petros Daras
- Abstract要約: この研究は、ビジョントランスフォーマーネットワークにおける標準的なアテンション機構に代えて、マルチマニフォールドアテンションと呼ばれる新しいアテンション機構を提案する。
提案した視覚変換器は、識別的特徴に注意を向けるようになり、分類結果が改善される。
- 参考スコア(独自算出の注目度): 21.709020908944467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformer are very popular nowadays due to their state-of-the-art
performance in several computer vision tasks, such as image classification and
action recognition. Although the performance of Vision Transformers have been
greatly improved by employing Convolutional Neural Networks, hierarchical
structures and compact forms, there is limited research on ways to utilize
additional data representations to refine the attention map derived from the
multi-head attention of a Transformer network. This work proposes a novel
attention mechanism, called multi-manifold attention, that can substitute any
standard attention mechanism in a Transformer-based network. The proposed
attention models the input space in three distinct manifolds, namely Euclidean,
Symmetric Positive Definite and Grassmann, with different statistical and
geometrical properties, guiding the network to take into consideration a rich
set of information that describe the appearance, color and texture of an image,
for the computation of a highly descriptive attention map. In this way, a
Vision Transformer with the proposed attention is guided to become more
attentive towards discriminative features, leading to improved classification
results, as shown by the experimental results on several well-known image
classification datasets.
- Abstract(参考訳): 視覚トランスフォーマーは、画像分類やアクション認識など、いくつかのコンピュータビジョンタスクにおける最先端のパフォーマンスのため、現在非常に人気がある。
畳み込みニューラルネットワーク,階層構造,コンパクト形式を用いて,視覚トランスフォーマーの性能は大幅に改善されているが,トランスフォーマーネットワークのマルチヘッドアテンションから導かれるアテンションマップを改良するために,追加のデータ表現を利用する方法が限られている。
本研究は,トランスフォーマリンネットワークにおける標準的な注意機構を代替する,マルチマニフォールド注意と呼ばれる新しい注意機構を提案する。
提案する注意空間は、3つの異なる多様体、すなわちユークリッド、対称正定値およびグラスマンの入力空間を、異なる統計的および幾何学的性質でモデル化し、高記述的な注意マップの計算のために画像の外観、色、テクスチャを記述する豊富な情報集合を考慮するようにネットワークを導いた。
このようにして、提案する視覚変換器は、識別的特徴に対してより注意を払っていくように誘導され、いくつかのよく知られた画像分類データセットの実験結果に示されるように、分類結果が改善される。
関連論文リスト
- DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - Attention Deficit is Ordered! Fooling Deformable Vision Transformers
with Collaborative Adversarial Patches [3.4673556247932225]
変形可能な視覚変換器は、注意モデリングの複雑さを著しく低減する。
最近の研究は、従来の視覚変換器に対する敵攻撃を実証している。
我々は,対象のパッチに注意を向けるようにソースパッチが操作する新たなコラボレーティブアタックを開発する。
論文 参考訳(メタデータ) (2023-11-21T17:55:46Z) - Vision Transformers for Action Recognition: A Survey [41.69370782177517]
コンピュータビジョン問題を解決する強力なツールとして、ビジョントランスフォーマーが登場している。
最近の技術は、多数のビデオ関連タスクを解決するために、画像領域を超えたトランスフォーマーの有効性を証明している。
人間の行動認識は、広く応用されているため、研究コミュニティから特別に注目を集めている。
論文 参考訳(メタデータ) (2022-09-13T02:57:05Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - Visualizing and Understanding Patch Interactions in Vision Transformer [96.70401478061076]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて主要なツールとなっている。
本稿では,視覚変換器のパッチ間の重要な注意相互作用を分析し,解釈するための,説明可能な新しい可視化手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T13:48:11Z) - Blending Anti-Aliasing into Vision Transformer [57.88274087198552]
不連続なパッチ単位のトークン化プロセスは、ジャッジされたアーティファクトをアテンションマップに暗黙的に導入する。
エイリアス効果は、離散パターンを使用して高周波または連続的な情報を生成し、区別不能な歪みをもたらす。
本稿では,前述の問題を緩和するためのAliasing-Reduction Module(ARM)を提案する。
論文 参考訳(メタデータ) (2021-10-28T14:30:02Z) - Generic Attention-model Explainability for Interpreting Bi-Modal and
Encoder-Decoder Transformers [78.26411729589526]
トランスフォーマーアーキテクチャによる予測を説明する最初の方法を提案する。
本手法は,一様説明性に適応した既存手法よりも優れている。
論文 参考訳(メタデータ) (2021-03-29T15:03:11Z) - Evolving Attention with Residual Convolutions [29.305149185821882]
本稿では,変圧器の性能向上を目的とした新しいメカニズムを提案する。
提案された注意メカニズムは、複数のタスクに対する様々な最新モデルに対する大幅なパフォーマンス改善を実現する。
論文 参考訳(メタデータ) (2021-02-20T15:24:06Z) - A Survey on Visual Transformer [126.56860258176324]
Transformerは、主に自己認識機構に基づくディープニューラルネットワークの一種である。
本稿では、これらの視覚変換器モデルについて、異なるタスクで分類し、それらの利点と欠点を分析することでレビューする。
論文 参考訳(メタデータ) (2020-12-23T09:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。