論文の概要: Generic Attention-model Explainability for Interpreting Bi-Modal and
Encoder-Decoder Transformers
- arxiv url: http://arxiv.org/abs/2103.15679v1
- Date: Mon, 29 Mar 2021 15:03:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 20:25:25.300684
- Title: Generic Attention-model Explainability for Interpreting Bi-Modal and
Encoder-Decoder Transformers
- Title(参考訳): バイモーダル・エンコーダ・デコーダ変換器のジェネリックアテンションモデル記述可能性
- Authors: Hila Chefer, Shir Gur, and Lior Wolf
- Abstract要約: トランスフォーマーアーキテクチャによる予測を説明する最初の方法を提案する。
本手法は,一様説明性に適応した既存手法よりも優れている。
- 参考スコア(独自算出の注目度): 78.26411729589526
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers are increasingly dominating multi-modal reasoning tasks, such as
visual question answering, achieving state-of-the-art results thanks to their
ability to contextualize information using the self-attention and co-attention
mechanisms. These attention modules also play a role in other computer vision
tasks including object detection and image segmentation. Unlike Transformers
that only use self-attention, Transformers with co-attention require to
consider multiple attention maps in parallel in order to highlight the
information that is relevant to the prediction in the model's input. In this
work, we propose the first method to explain prediction by any
Transformer-based architecture, including bi-modal Transformers and
Transformers with co-attentions. We provide generic solutions and apply these
to the three most commonly used of these architectures: (i) pure
self-attention, (ii) self-attention combined with co-attention, and (iii)
encoder-decoder attention. We show that our method is superior to all existing
methods which are adapted from single modality explainability.
- Abstract(参考訳): トランスフォーマーは,視覚質問応答や最先端結果の達成といったマルチモーダル推論タスクを,自己着脱機構とコアテンション機構を使ってコンテキスト化する能力によって,ますます支配的になっています。
これらの注目モジュールは、オブジェクト検出やイメージセグメンテーションを含む他のコンピュータビジョンタスクでも役割を果たす。
セルフアテンションのみを使用するトランスフォーマーとは異なり、コアテンションを持つトランスフォーマーはモデル入力の予測に関連する情報を強調するために、複数のアテンションマップを並列に考慮する必要がある。
本研究では,バイモーダルトランスフォーマーやコアテンションを持つトランスフォーマーを含む,トランスフォーマーベースのアーキテクチャによる予測を記述するための最初の手法を提案する。
汎用的なソリューションを提供し,これらを,(i)純粋な自己注意,(ii)コアテンションと組み合わせた自己意識,(iii)エンコーダ・デコーダの注意という,これらのアーキテクチャで最も一般的な3つのアーキテクチャに適用する。
本手法は,単一モード説明可能性から適応した既存手法よりも優れていることを示す。
関連論文リスト
- DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - AttentionViz: A Global View of Transformer Attention [60.82904477362676]
本研究では,変圧器の自己保持機構を研究者が理解するための新しい可視化手法を提案する。
提案手法の背景にある主な考え方は,問合せとキーベクトルの結合埋め込みを可視化し,注意力を計算することである。
このような共同クエリキーの埋め込みに基づいて,インタラクティブな可視化ツールであるAttentionVizを開発した。
論文 参考訳(メタデータ) (2023-05-04T23:46:49Z) - Holistically Explainable Vision Transformers [136.27303006772294]
本稿では,B-cos変換器を提案する。
具体的には、各モデルコンポーネント(多層パーセプトロン、注意層、トークン化モジュールなど)を動的線形に定式化する。
提案した設計をViT(Vision Transformers)に適用し,Bcos-ViTと呼ばれるモデルが高解釈可能であり,ベースラインのViTと競合することを示す。
論文 参考訳(メタデータ) (2023-01-20T16:45:34Z) - What Makes for Good Tokenizers in Vision Transformer? [62.44987486771936]
変圧器は自己注意を用いて対関係を抽出することができる。
優れたトークンライザとなるものは、コンピュータビジョンではよく理解されていない。
Tokens (MoTo) を横断する変調は、正規化によるトークン間モデリング機能を備えている。
TokenPropの正規化対象は、標準トレーニング体制で採用されている。
論文 参考訳(メタデータ) (2022-12-21T15:51:43Z) - Multi-manifold Attention for Vision Transformers [12.862540139118073]
ビジョントランスフォーマーは、いくつかのコンピュータビジョンタスクにおける最先端の性能のために、今日では非常に人気がある。
本研究では, 変圧器のバニラ自己注意の代替として, マルチマニフォールドマルチヘッドアテンションと呼ばれる新しいアテンション機構を提案する。
論文 参考訳(メタデータ) (2022-07-18T12:53:53Z) - Evolving Attention with Residual Convolutions [29.305149185821882]
本稿では,変圧器の性能向上を目的とした新しいメカニズムを提案する。
提案された注意メカニズムは、複数のタスクに対する様々な最新モデルに対する大幅なパフォーマンス改善を実現する。
論文 参考訳(メタデータ) (2021-02-20T15:24:06Z) - Learning Hard Retrieval Decoder Attention for Transformers [69.40942736249397]
トランスフォーマー変換モデルは、容易に並列化できるマルチヘッドアテンション機構に基づいている。
ハード検索の注意機構は復号化の1.43倍高速であることを示す。
論文 参考訳(メタデータ) (2020-09-30T13:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。