論文の概要: Demystify Self-Attention in Vision Transformers from a Semantic
Perspective: Analysis and Application
- arxiv url: http://arxiv.org/abs/2211.08543v1
- Date: Sun, 13 Nov 2022 15:18:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 13:53:47.159832
- Title: Demystify Self-Attention in Vision Transformers from a Semantic
Perspective: Analysis and Application
- Title(参考訳): 視覚トランスフォーマーにおける自己着脱 : 意味論的視点からの解析と応用
- Authors: Leijie Wu, Song Guo, Yaohong Ding, Junxiao Wang, Wenchao Xu, Richard
Yida Xu and Jie Zhang
- Abstract要約: 自己認識機構はコンピュータビジョンや自然言語処理など多くの分野で大きな成功を収めている。
多くの既存の視覚変換器(ViT)は、単に視覚タスクに適応するためにNLPから固有のトランスフォーマー設計を施している。
本稿では,低レベル表現を中間レベル空間にマッピングする典型的な画像処理手法を提案する。
- 参考スコア(独自算出の注目度): 21.161850569358776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-attention mechanisms, especially multi-head self-attention (MSA), have
achieved great success in many fields such as computer vision and natural
language processing. However, many existing vision transformer (ViT) works
simply inherent transformer designs from NLP to adapt vision tasks, while
ignoring the fundamental difference between ``how MSA works in image and
language settings''. Language naturally contains highly semantic structures
that are directly interpretable by humans. Its basic unit (word) is discrete
without redundant information, which readily supports interpretable studies on
MSA mechanisms of language transformer. In contrast, visual data exhibits a
fundamentally different structure: Its basic unit (pixel) is a natural
low-level representation with significant redundancies in the neighbourhood,
which poses obvious challenges to the interpretability of MSA mechanism in ViT.
In this paper, we introduce a typical image processing technique, i.e.,
scale-invariant feature transforms (SIFTs), which maps low-level
representations into mid-level spaces, and annotates extensive discrete
keypoints with semantically rich information. Next, we construct a weighted
patch interrelation analysis based on SIFT keypoints to capture the attention
patterns hidden in patches with different semantic concentrations
Interestingly, we find this quantitative analysis is not only an effective
complement to the interpretability of MSA mechanisms in ViT, but can also be
applied to 1) spurious correlation discovery and ``prompting'' during model
inference, 2) and guided model pre-training acceleration. Experimental results
on both applications show significant advantages over baselines, demonstrating
the efficacy of our method.
- Abstract(参考訳): 自己アテンション機構、特にマルチヘッド自己アテンション(MSA)はコンピュータビジョンや自然言語処理など多くの分野で大きな成功を収めている。
しかし、既存の視覚変換器(ViT)の多くは、単にNLPから固有のトランスフォーマー設計を施して視覚タスクを適応させ、"画像と言語設定におけるMSAの動作方法"の根本的な違いを無視している。
言語は自然に、人間が直接解釈できる高度に意味的な構造を含んでいる。
基本単位(単語)は冗長な情報を持たない離散であり、言語トランスフォーマーのMSA機構の解釈可能な研究を支援する。
基本単位(ピクセル)は、近隣で重要な冗長性を持つ自然な低レベル表現であり、ViTにおけるMSA機構の解釈可能性に明らかな課題を生じさせる。
本稿では,低レベル表現を中間レベル空間にマッピングし,意味的に豊かな情報で広範囲な離散キーポイントを注釈する,SIFT(Scale-invariant feature transforms)という典型的な画像処理手法を提案する。
次に,siftキーポイントに基づく重み付きパッチ相互関係解析を行い,異なる意味的濃度のパッチに隠された注意パターンを捉える。
1)モデル推論における散発的相関発見と'prompting''
2)および誘導モデル事前学習加速度。
両応用実験の結果, ベースラインよりも有意な優位性を示し, 提案手法の有効性を実証した。
関連論文リスト
- The Mechanics of Conceptual Interpretation in GPT Models: Interpretative Insights [10.777646083061395]
本稿では,大規模言語モデルにおける概念化機構を明らかにする知識編集の革新的バリエーションである概念編集を紹介する。
我々は、トランスモデルのマルチ層パーセプトロン(MLP)、マルチヘッドアテンション(MHA)、および隠れ状態成分を解析する。
我々の研究は、LLMにおける複雑な階層化されたセマンティック処理の性質と、これらのモデルにおける特定の概念の分離と修正の課題を強調している。
論文 参考訳(メタデータ) (2024-08-05T18:50:08Z) - Beyond Mask: Rethinking Guidance Types in Few-shot Segmentation [67.35274834837064]
我々は、テキスト、マスク、ボックス、画像からのプロンプトを統合するユニバーサルビジョン言語フレームワーク(UniFSS)を開発した。
UniFSSは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-07-16T08:41:01Z) - Vision Transformers with Natural Language Semantics [13.535916922328287]
視覚変換器(ViT)には、自然言語処理(NLP)と異なり、基本的な意味情報がない。
セマンティック・ビジョン・トランスフォーマー (Semantic Vision Transformers, SViT) は, セマンティック・インフォメーションを利用したトランスフォーマモデルである。
SViTは意味情報を効果的に活用し、畳み込みニューラルネットワークを連想させる誘導バイアスを生み出す。
論文 参考訳(メタデータ) (2024-02-27T19:54:42Z) - Analyzing Local Representations of Self-supervised Vision Transformers [34.56680159632432]
各種自己監督型視覚変換器(ViT)の比較分析を行った。
大規模言語モデルに触発されて、微調整をほとんど行わずに様々なコンピュータビジョンタスクを実行するViTの能力について検討する。
論文 参考訳(メタデータ) (2023-12-31T11:38:50Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Learning Robust Visual-Semantic Embedding for Generalizable Person
Re-identification [11.562980171753162]
一般化可能な人物識別(Re-ID)は、機械学習とコンピュータビジョンにおいて非常にホットな研究トピックである。
従来の手法は主に視覚表現学習に焦点をあてるが、訓練中の意味的特徴の可能性を検討することは無視される。
MMETと呼ばれるマルチモーダル等価変換器を提案し,より堅牢なビジュアル・セマンティックな埋め込み学習を実現する。
論文 参考訳(メタデータ) (2023-04-19T08:37:25Z) - FER-former: Multi-modal Transformer for Facial Expression Recognition [14.219492977523682]
本稿では,表情認識のための多孔性監視ステアリングトランスを提案する。
提案手法は,多粒性埋め込み統合,ハイブリッド自己アテンション方式,及びヘテロジニアス・ドメイン・ステアリング・インスペクションを特徴とする。
人気のあるベンチマークの実験では、既存の最先端技術よりも提案されたFER-formerの方が優れていることが示されている。
論文 参考訳(メタデータ) (2023-03-23T02:29:53Z) - SIM-Trans: Structure Information Modeling Transformer for Fine-grained
Visual Categorization [59.732036564862796]
本稿では,オブジェクト構造情報を変換器に組み込んだSIM-Trans(Structure Information Modeling Transformer)を提案する。
提案した2つのモジュールは軽量化されており、任意のトランスフォーマーネットワークにプラグインでき、エンドツーエンドで容易に訓練できる。
実験と解析により,提案したSIM-Transが細粒度視覚分類ベンチマークの最先端性能を達成することを示した。
論文 参考訳(メタデータ) (2022-08-31T03:00:07Z) - Visualizing and Understanding Patch Interactions in Vision Transformer [96.70401478061076]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて主要なツールとなっている。
本稿では,視覚変換器のパッチ間の重要な注意相互作用を分析し,解釈するための,説明可能な新しい可視化手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T13:48:11Z) - Probing Inter-modality: Visual Parsing with Self-Attention for
Vision-Language Pre-training [139.4566371416662]
Vision-Language Pre-Trainingは、画像とテキストのペアからマルチモーダル表現を学ぶことを目的としている。
CNNは、長距離依存をモデル化する際の局所受容野の弱点により、視覚的関係学習に制限がある。
論文 参考訳(メタデータ) (2021-06-25T08:04:25Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。