論文の概要: Self-attention in Vision Transformers Performs Perceptual Grouping, Not
Attention
- arxiv url: http://arxiv.org/abs/2303.01542v1
- Date: Thu, 2 Mar 2023 19:18:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-06 17:15:27.493490
- Title: Self-attention in Vision Transformers Performs Perceptual Grouping, Not
Attention
- Title(参考訳): 視覚トランスフォーマーにおける自己着脱は注意ではなく知覚的グループ化を行う
- Authors: Paria Mehrani and John K. Tsotsos
- Abstract要約: 視覚変換器の注意機構は人間の視覚的注意と同様の効果を示す。
その結果,色などの視覚的特徴の類似性から,自己注意モジュール群が刺激に現れることが示唆された。
単トン検出実験において、これらのモデルが人間の視覚的注意に利用されるフィードフォワード視覚的サリエンス機構と類似した効果を示すかどうかを検討した。
- 参考スコア(独自算出の注目度): 11.789983276366986
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recently, a considerable number of studies in computer vision involves deep
neural architectures called vision transformers. Visual processing in these
models incorporates computational models that are claimed to implement
attention mechanisms. Despite an increasing body of work that attempts to
understand the role of attention mechanisms in vision transformers, their
effect is largely unknown. Here, we asked if the attention mechanisms in vision
transformers exhibit similar effects as those known in human visual attention.
To answer this question, we revisited the attention formulation in these models
and found that despite the name, computationally, these models perform a
special class of relaxation labeling with similarity grouping effects.
Additionally, whereas modern experimental findings reveal that human visual
attention involves both feed-forward and feedback mechanisms, the purely
feed-forward architecture of vision transformers suggests that attention in
these models will not have the same effects as those known in humans. To
quantify these observations, we evaluated grouping performance in a family of
vision transformers. Our results suggest that self-attention modules group
figures in the stimuli based on similarity in visual features such as color.
Also, in a singleton detection experiment as an instance of saliency detection,
we studied if these models exhibit similar effects as those of feed-forward
visual salience mechanisms utilized in human visual attention. We found that
generally, the transformer-based attention modules assign more salience either
to distractors or the ground. Together, our study suggests that the attention
mechanisms in vision transformers perform similarity grouping and not
attention.
- Abstract(参考訳): 近年、コンピュータビジョンにおけるかなりの数の研究は、ビジョントランスフォーマーと呼ばれる深層神経アーキテクチャを含んでいる。
これらのモデルにおける視覚処理は、注意のメカニズムを実装すると主張する計算モデルを取り込んでいる。
視覚トランスフォーマーにおける注意メカニズムの役割を理解しようとする作業が増えているが、その効果はほとんど分かっていない。
ここでは、視覚変換器の注意機構が人間の視覚的注意と同様の効果を示すかどうかを問う。
この疑問に答えるために、我々はこれらのモデルにおける注意の定式化を再考し、その名前にもかかわらず、計算上、これらのモデルが類似性グルーピング効果を持つ緩和ラベルの特別なクラスを実行することを発見した。
さらに、現代の実験では、人間の視覚的注意がフィードフォワードとフィードバックのメカニズムの両方に関係していることが示されているが、視覚トランスフォーマーの純粋にフィードフォワードアーキテクチャは、これらのモデルにおける注意がヒトで知られているものと同じ効果を持たないことを示唆している。
これらの観察を定量化するために,視覚トランスフォーマの群化性能を評価した。
その結果,色などの視覚的特徴の類似性から,自己注意モジュール群が刺激に現れることが示唆された。
また,サリエンシ検出の例としてシングルトン検出実験において,これらのモデルが人間の視覚的注意に利用されるフィードフォワード視覚的サリエンス機構と同様の効果を示すかどうかを検討した。
一般に、トランスフォーマーベースのアテンションモジュールは、イントラクタまたはグラウンドに対してよりサリエンスを割り当てる。
そこで本研究では,視覚トランスフォーマーの注意機構が類似性グループ化を行い,注意を払わないことを示唆する。
関連論文リスト
- Affinity-based Attention in Self-supervised Transformers Predicts
Dynamics of Object Grouping in Humans [2.485182034310303]
本稿では,人間の対象に基づく注意散布とセグメンテーションのモデルを提案する。
我々の研究は、トランスフォーマーを含む視覚表現学習モデルを評価するための新しいベンチマークを提供する。
論文 参考訳(メタデータ) (2023-06-01T02:25:55Z) - AttentionViz: A Global View of Transformer Attention [60.82904477362676]
本研究では,変圧器の自己保持機構を研究者が理解するための新しい可視化手法を提案する。
提案手法の背景にある主な考え方は,問合せとキーベクトルの結合埋め込みを可視化し,注意力を計算することである。
このような共同クエリキーの埋め込みに基づいて,インタラクティブな可視化ツールであるAttentionVizを開発した。
論文 参考訳(メタデータ) (2023-05-04T23:46:49Z) - Multi-manifold Attention for Vision Transformers [12.862540139118073]
ビジョントランスフォーマーは、いくつかのコンピュータビジョンタスクにおける最先端の性能のために、今日では非常に人気がある。
本研究では, 変圧器のバニラ自己注意の代替として, マルチマニフォールドマルチヘッドアテンションと呼ばれる新しいアテンション機構を提案する。
論文 参考訳(メタデータ) (2022-07-18T12:53:53Z) - Deep Active Visual Attention for Real-time Robot Motion Generation:
Emergence of Tool-body Assimilation and Adaptive Tool-use [9.141661467673817]
本稿では,人間の認知構造に触発された新しいロボットモーション生成モデルを提案する。
このモデルには状態駆動のアクティブなトップダウン視覚的注意モジュールが組み込まれており、タスクの状態に基づいてターゲットを積極的に変更することができる。
その結果、訓練されていない道具を装着したり、実験者の気遣いに晒されたりしても、安定した注意と動きを維持できるモデル視覚の柔軟性の向上が示唆された。
論文 参考訳(メタデータ) (2022-06-29T10:55:32Z) - Visualizing and Understanding Patch Interactions in Vision Transformer [96.70401478061076]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて主要なツールとなっている。
本稿では,視覚変換器のパッチ間の重要な注意相互作用を分析し,解釈するための,説明可能な新しい可視化手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T13:48:11Z) - Attention Mechanisms in Computer Vision: A Survey [75.6074182122423]
本稿では,コンピュータビジョンにおける様々な注意機構について概観する。
チャネルアテンション,空間アテンション,時間アテンション,分岐アテンションなど,アプローチによって分類する。
我々は注意機構研究の今後の方向性を提案する。
論文 参考訳(メタデータ) (2021-11-15T09:18:40Z) - Generic Attention-model Explainability for Interpreting Bi-Modal and
Encoder-Decoder Transformers [78.26411729589526]
トランスフォーマーアーキテクチャによる予測を説明する最初の方法を提案する。
本手法は,一様説明性に適応した既存手法よりも優れている。
論文 参考訳(メタデータ) (2021-03-29T15:03:11Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z) - A Survey on Visual Transformer [126.56860258176324]
Transformerは、主に自己認識機構に基づくディープニューラルネットワークの一種である。
本稿では、これらの視覚変換器モデルについて、異なるタスクで分類し、それらの利点と欠点を分析することでレビューする。
論文 参考訳(メタデータ) (2020-12-23T09:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。