論文の概要: How Does Attention Work in Vision Transformers? A Visual Analytics
Attempt
- arxiv url: http://arxiv.org/abs/2303.13731v1
- Date: Fri, 24 Mar 2023 01:02:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 16:12:05.406543
- Title: How Does Attention Work in Vision Transformers? A Visual Analytics
Attempt
- Title(参考訳): 視覚トランスフォーマーの注意はどのように働くのか?
Visual Analyticsの試み
- Authors: Yiran Li, Junpeng Wang, Xin Dai, Liang Wang, Chin-Chia Michael Yeh,
Yan Zheng, Wei Zhang, Kwan-Liu Ma
- Abstract要約: 視覚変換器(ViT)は、シーケンシャルデータから画像への変換器モデルの成功を拡大する。
シーケンシャルなデータに対するViTの解釈は成功したが、ViTの解釈にはほとんど注力していない。
- 参考スコア(独自算出の注目度): 35.4120442806069
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision transformer (ViT) expands the success of transformer models from
sequential data to images. The model decomposes an image into many smaller
patches and arranges them into a sequence. Multi-head self-attentions are then
applied to the sequence to learn the attention between patches. Despite many
successful interpretations of transformers on sequential data, little effort
has been devoted to the interpretation of ViTs, and many questions remain
unanswered. For example, among the numerous attention heads, which one is more
important? How strong are individual patches attending to their spatial
neighbors in different heads? What attention patterns have individual heads
learned? In this work, we answer these questions through a visual analytics
approach. Specifically, we first identify what heads are more important in ViTs
by introducing multiple pruning-based metrics. Then, we profile the spatial
distribution of attention strengths between patches inside individual heads, as
well as the trend of attention strengths across attention layers. Third, using
an autoencoder-based learning solution, we summarize all possible attention
patterns that individual heads could learn. Examining the attention strengths
and patterns of the important heads, we answer why they are important. Through
concrete case studies with experienced deep learning experts on multiple ViTs,
we validate the effectiveness of our solution that deepens the understanding of
ViTs from head importance, head attention strength, and head attention pattern.
- Abstract(参考訳): vision transformer (vit) は、逐次データから画像へトランスフォーマーモデルの成功を広げる。
モデルは画像を多数の小さなパッチに分解し、それらをシーケンスに配置する。
マルチヘッドの自己注意をシーケンスに適用し、パッチ間の注意を学習する。
シーケンシャルデータに対するトランスフォーマーの解釈は成功したが、ViTの解釈にはほとんど取り組みがなく、多くの疑問は未解決のままである。
例えば、多くの注目層の中で、どちらが重要なのか?
個々のパッチは、異なる頭の空間的隣人にどれだけ強いか?
個々の頭がどのような注意パターンを学んだか?
本研究では、視覚分析手法を用いてこれらの質問に答える。
具体的には、まず、複数のプルーニングベースのメトリクスを導入することで、ViTにおいてどのヘッドがより重要かを特定する。
次に,各頭部のパッチ間における注目強度の空間分布と,注目層間における注目強度の傾向を考察した。
第3に、オートエンコーダに基づく学習ソリューションを用いて、個々の頭が学習できるすべての注意パターンを要約する。
重要な頭部の注意力とパターンを調べることで、なぜ重要なのかを答える。
複数のViTについて経験豊富な深層学習の専門家との具体的なケーススタディを通じて、頭の重要性、注意力、注意パターンからViTの理解を深めるソリューションの有効性を検証する。
関連論文リスト
- PartFormer: Awakening Latent Diverse Representation from Vision Transformer for Object Re-Identification [73.64560354556498]
Vision Transformer (ViT) は、ほとんどの異なる訓練データ領域に過度に適合する傾向にあり、その一般化性と全体的対象特徴への注意が制限される。
本稿では、オブジェクトRe-IDタスクの制限を克服するために設計された、ViTの革新的な適応であるPartFormerを紹介する。
我々のフレームワークは、最も困難なMSMT17データセットにおいて、最先端の2.4%のmAPスコアを著しく上回る。
論文 参考訳(メタデータ) (2024-08-29T16:31:05Z) - Beyond the Doors of Perception: Vision Transformers Represent Relations Between Objects [30.09778169168547]
ビジョントランス (ViT) は様々な環境で最先端のパフォーマンスを実現している。
しかし、視覚的関係を含むタスクを遂行する際、驚くべき失敗を経験する。
論文 参考訳(メタデータ) (2024-06-22T22:43:10Z) - What do Vision Transformers Learn? A Visual Exploration [68.50771218442776]
視覚変換器(ViT)はコンピュータビジョンのデファクトアーキテクチャとして急速に普及しつつある。
本稿では、ViT上での可視化の障害に対処し、ViTとCNNの根本的な相違について検討する。
また、DeiT、CoaT、ConViT、PiT、Swin、Twinなど、さまざまなViT変種に対して大規模な可視化を行っています。
論文 参考訳(メタデータ) (2022-12-13T16:55:12Z) - Teaching Matters: Investigating the Role of Supervision in Vision
Transformers [32.79398665600664]
視覚変換器(ViT)は,その注意,表現,下流のパフォーマンスの観点から,多様な動作を学習する。
また,オフセット・ローカル・アテンション・ヘッドの出現など,監督の面から一貫したViT行動も発見する。
我々の分析では、ViTは高度に柔軟であり、訓練方法に応じて、異なる順序で局所的およびグローバルな情報を処理できることが示されている。
論文 参考訳(メタデータ) (2022-12-07T18:59:45Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - Person Re-identification via Attention Pyramid [74.80544921378998]
人物再識別のための注意ピラミッド手法を提案する。
我々の注目ピラミッドは、異なるスケールで人の注意が変化するため、マルチスケールで注意領域を活用します。
本手法は, Market-1501, DukeMTMC, CUHK03, MSMT17 の4つの大規模人物識別ベンチマークを用いて評価した。
論文 参考訳(メタデータ) (2021-08-11T17:33:36Z) - Understanding top-down attention using task-oriented ablation design [0.22940141855172028]
トップダウンの注目により、ニューラルネットワークは、人工的および生物学的の両方において、与えられたタスクに最も関連性の高い情報に集中することができる。
我々は,タスク指向アブレーション設計と呼ばれる一般的なフレームワークに基づく計算実験により,この問題に対処することを目指している。
2つのニューラルネットワークの性能を比較する。
論文 参考訳(メタデータ) (2021-06-08T21:01:47Z) - Multi-Head Self-Attention with Role-Guided Masks [20.955992710112216]
本稿では,先行作業における役割を重要視する上での注意を導く手法を提案する。
これを行うには、入力の特定の部分に出席する頭を制限する役割固有のマスクを定義します。
7つの異なるデータセットを用いたテキスト分類と機械翻訳の実験により,本手法が競合注意ベース,CNN,RNNベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2020-12-22T21:34:02Z) - Multi-Head Attention: Collaborate Instead of Concatenate [85.71058762269374]
我々は,頭部が共有投影を学習できる,協調的な多面的アテンション層を提案する。
実験により、キー/クエリの次元の共有は言語理解、機械翻訳、ビジョンに活用できることを確認した。
論文 参考訳(メタデータ) (2020-06-29T20:28:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。