論文の概要: Visualizing and Understanding Patch Interactions in Vision Transformer
- arxiv url: http://arxiv.org/abs/2203.05922v1
- Date: Fri, 11 Mar 2022 13:48:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-14 13:04:09.145710
- Title: Visualizing and Understanding Patch Interactions in Vision Transformer
- Title(参考訳): 視覚変換器におけるパッチ相互作用の可視化と理解
- Authors: Jie Ma, Yalong Bai, Bineng Zhong, Wei Zhang, Ting Yao, Tao Mei
- Abstract要約: Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて主要なツールとなっている。
本稿では,視覚変換器のパッチ間の重要な注意相互作用を分析し,解釈するための,説明可能な新しい可視化手法を提案する。
- 参考スコア(独自算出の注目度): 96.70401478061076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformer (ViT) has become a leading tool in various computer vision
tasks, owing to its unique self-attention mechanism that learns visual
representations explicitly through cross-patch information interactions.
Despite having good success, the literature seldom explores the explainability
of vision transformer, and there is no clear picture of how the attention
mechanism with respect to the correlation across comprehensive patches will
impact the performance and what is the further potential. In this work, we
propose a novel explainable visualization approach to analyze and interpret the
crucial attention interactions among patches for vision transformer.
Specifically, we first introduce a quantification indicator to measure the
impact of patch interaction and verify such quantification on attention window
design and indiscriminative patches removal. Then, we exploit the effective
responsive field of each patch in ViT and devise a window-free transformer
architecture accordingly. Extensive experiments on ImageNet demonstrate that
the exquisitely designed quantitative method is shown able to facilitate ViT
model learning, leading the top-1 accuracy by 4.28% at most. Moreover, the
results on downstream fine-grained recognition tasks further validate the
generalization of our proposal.
- Abstract(参考訳): Vision Transformer (ViT) は、横断的な情報通信を通じて視覚表現を明示的に学習する独自の自己認識機構により、様々なコンピュータビジョンタスクにおいて主要なツールとなっている。
優れた成功にもかかわらず、視覚トランスフォーマーの説明可能性を探ることは滅多になく、包括的なパッチ間の相関に対する注意メカニズムがパフォーマンスにどのように影響するか、さらなる可能性にどのように影響するかは明らかではない。
本研究では,視覚トランスフォーマーのパッチ間の重要な注意の相互作用を分析し,解釈するための新しい可視化手法を提案する。
具体的には、まず、パッチ間相互作用の影響を測定する定量化指標を導入し、注意窓の設計と識別不能なパッチ除去に対する量化の検証を行う。
次に,各パッチの有効応答フィールドをvitで活用し,それに応じてウィンドウフリートランスフォーマーアーキテクチャを考案する。
ImageNetの大規模な実験では、精巧に設計された量的手法がViTモデルの学習を促進できることが示され、トップ1の精度は4.28%向上した。
さらに,下流の細粒度認識タスクの結果は,提案の一般化をさらに検証する。
関連論文リスト
- DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - Token Transformation Matters: Towards Faithful Post-hoc Explanation for Vision Transformer [16.97186100288621]
視覚変換器は、領域を変換トークンとして表現し、注意重みを通してそれらを統合することによって視覚情報を抽出する。
既存のポストホックな説明法は単にこれらの注意重みを考慮し、変換されたトークンから重要な情報を無視するだけである。
本稿では,トークン変換効果の測定を利用したポストホックな説明手法であるTokenTMを提案する。
論文 参考訳(メタデータ) (2024-03-21T16:52:27Z) - Attention Deficit is Ordered! Fooling Deformable Vision Transformers
with Collaborative Adversarial Patches [3.4673556247932225]
変形可能な視覚変換器は、注意モデリングの複雑さを著しく低減する。
最近の研究は、従来の視覚変換器に対する敵攻撃を実証している。
我々は,対象のパッチに注意を向けるようにソースパッチが操作する新たなコラボレーティブアタックを開発する。
論文 参考訳(メタデータ) (2023-11-21T17:55:46Z) - AttentionViz: A Global View of Transformer Attention [60.82904477362676]
本研究では,変圧器の自己保持機構を研究者が理解するための新しい可視化手法を提案する。
提案手法の背景にある主な考え方は,問合せとキーベクトルの結合埋め込みを可視化し,注意力を計算することである。
このような共同クエリキーの埋め込みに基づいて,インタラクティブな可視化ツールであるAttentionVizを開発した。
論文 参考訳(メタデータ) (2023-05-04T23:46:49Z) - What Makes for Good Tokenizers in Vision Transformer? [62.44987486771936]
変圧器は自己注意を用いて対関係を抽出することができる。
優れたトークンライザとなるものは、コンピュータビジョンではよく理解されていない。
Tokens (MoTo) を横断する変調は、正規化によるトークン間モデリング機能を備えている。
TokenPropの正規化対象は、標準トレーニング体制で採用されている。
論文 参考訳(メタデータ) (2022-12-21T15:51:43Z) - Demystify Self-Attention in Vision Transformers from a Semantic
Perspective: Analysis and Application [21.161850569358776]
自己認識機構はコンピュータビジョンや自然言語処理など多くの分野で大きな成功を収めている。
多くの既存の視覚変換器(ViT)は、単に視覚タスクに適応するためにNLPから固有のトランスフォーマー設計を施している。
本稿では,低レベル表現を中間レベル空間にマッピングする典型的な画像処理手法を提案する。
論文 参考訳(メタデータ) (2022-11-13T15:18:31Z) - Multi-manifold Attention for Vision Transformers [12.862540139118073]
ビジョントランスフォーマーは、いくつかのコンピュータビジョンタスクにおける最先端の性能のために、今日では非常に人気がある。
本研究では, 変圧器のバニラ自己注意の代替として, マルチマニフォールドマルチヘッドアテンションと呼ばれる新しいアテンション機構を提案する。
論文 参考訳(メタデータ) (2022-07-18T12:53:53Z) - AdaViT: Adaptive Vision Transformers for Efficient Image Recognition [78.07924262215181]
AdaViTは、パッチ、セルフアテンションヘッド、およびトランスフォーマーブロックを使用するための利用ポリシーを導出する適応フレームワークである。
本手法は,0.8%の精度で,最先端のビジョントランスに比べて2倍以上の効率向上を実現している。
論文 参考訳(メタデータ) (2021-11-30T18:57:02Z) - Blending Anti-Aliasing into Vision Transformer [57.88274087198552]
不連続なパッチ単位のトークン化プロセスは、ジャッジされたアーティファクトをアテンションマップに暗黙的に導入する。
エイリアス効果は、離散パターンを使用して高周波または連続的な情報を生成し、区別不能な歪みをもたらす。
本稿では,前述の問題を緩和するためのAliasing-Reduction Module(ARM)を提案する。
論文 参考訳(メタデータ) (2021-10-28T14:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。