論文の概要: Quantifying Attention Flow in Transformers
- arxiv url: http://arxiv.org/abs/2005.00928v2
- Date: Sun, 31 May 2020 16:59:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 11:42:07.311730
- Title: Quantifying Attention Flow in Transformers
- Title(参考訳): 変圧器の注意の流れの定量化
- Authors: Samira Abnar and Willem Zuidema
- Abstract要約: 自己注意(self-attention)"は、出席した埋め込みからの情報を次の層への焦点埋め込みの表現に結合する。
これにより、説明プローブとして注意重みが信頼できない。
本稿では,注目重み,注目ロールアウト,注目フローを付加した入力トークンへの注意を近似する2つの手法を提案する。
- 参考スコア(独自算出の注目度): 12.197250533100283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the Transformer model, "self-attention" combines information from attended
embeddings into the representation of the focal embedding in the next layer.
Thus, across layers of the Transformer, information originating from different
tokens gets increasingly mixed. This makes attention weights unreliable as
explanations probes. In this paper, we consider the problem of quantifying this
flow of information through self-attention. We propose two methods for
approximating the attention to input tokens given attention weights, attention
rollout and attention flow, as post hoc methods when we use attention weights
as the relative relevance of the input tokens. We show that these methods give
complementary views on the flow of information, and compared to raw attention,
both yield higher correlations with importance scores of input tokens obtained
using an ablation method and input gradients.
- Abstract(参考訳): Transformerモデルでは、"self-attention"は、出席した埋め込みからの情報を次の層への焦点埋め込みの表現に結合する。
したがって、トランスフォーマーの層にまたがって、異なるトークンに由来する情報がますます混ざり合うようになる。
これにより、注意重みは説明プローブとして信頼できない。
本稿では,この情報の流れを自己確認によって定量化する問題を考える。
入力トークンの相対的関連性として注意重みを用いる場合,注意重み,注意ロールアウト,注意フローをポストホック法として,入力トークンに対する注意を近似する2つの手法を提案する。
これらの手法は,情報の流れを相補的に把握し,生の注意と比較して,いずれもアブレーション法と入力勾配を用いて得られた入力トークンの重要性スコアと高い相関性をもたらすことを示す。
関連論文リスト
- Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - Elliptical Attention [1.7597562616011944]
Pairwise dot-product self-attentionは、言語やビジョンにおける様々なアプリケーションで最先端のパフォーマンスを実現するトランスフォーマーの成功の鍵である。
本稿では,マハラノビス距離計を用いて注意重みの計算を行い,その基礎となる特徴空間を文脈的関連性の高い方向に拡張することを提案する。
論文 参考訳(メタデータ) (2024-06-19T18:38:11Z) - Generic Attention-model Explainability by Weighted Relevance
Accumulation [9.816810016935541]
本稿では,トークン値の重要性を考慮に入れた重み付き関連性戦略を提案する。
提案手法を評価するために,CLIPをベースとした2段階モデルCLIPmapperを提案する。
論文 参考訳(メタデータ) (2023-08-20T12:02:30Z) - How Much Does Attention Actually Attend? Questioning the Importance of
Attention in Pretrained Transformers [59.57128476584361]
本稿では,入力依存型アテンション行列を一定値に置き換える新しい探索手法PAPAを紹介する。
入力依存の注意を払わずに、全てのモデルが競争性能を達成できることがわかった。
より弱いモデルよりも、我々の手法を適用することでより良い性能のモデルが失われることが示され、入力依存の注意機構の利用がその成功の要因である可能性が示唆された。
論文 参考訳(メタデータ) (2022-11-07T12:37:54Z) - Token-Label Alignment for Vision Transformers [93.58540411138164]
データ混合戦略(例えば、CutMix)は、畳み込みニューラルネットワーク(CNN)の性能を大幅に改善する能力を示している。
我々は,データ混合戦略の可能性を抑制するトークン変動現象を同定する。
本稿では,各トークンのラベルを保持するために,変換されたトークンと元のトークンとの対応をトレースするトークンラベルアライメント(TL-Align)手法を提案する。
論文 参考訳(メタデータ) (2022-10-12T17:54:32Z) - Measuring the Mixing of Contextual Information in the Transformer [0.19116784879310028]
注意ブロック - 複数頭部の注意、残差接続、および層正規化 - を考慮し、トークンとトークンの相互作用を測定するための計量を定義する。
次に,階層的な解釈を集約し,モデル予測のための入力属性スコアを提供する。
実験により,本手法は忠実な説明を提供し,類似のアグリゲーション法より優れていることを示す。
論文 参考訳(メタデータ) (2022-03-08T17:21:27Z) - Is Sparse Attention more Interpretable? [52.85910570651047]
我々は,空間が注意力を説明可能性ツールとして活用する能力にどのように影響するかを検討する。
入力とインデックス付き中間表現の間には弱い関係しか存在しません。
この設定では、疎度を誘導することで、モデルの振る舞いを理解するためのツールとして注意が使用できることが、より確実になる可能性があることを観察する。
論文 参考訳(メタデータ) (2021-06-02T11:42:56Z) - Centroid Transformers: Learning to Abstract with Attention [15.506293166377182]
自己注意は入力から特徴を抽出する強力なメカニズムである。
N入力をM出力にマップする自己注意の一般化であるセントロイド注意を$(Mleq N)$に提案する。
本手法は,抽象的テキスト要約,3次元視覚,画像処理など,様々なアプリケーションに適用する。
論文 参考訳(メタデータ) (2021-02-17T07:04:19Z) - Transformer Interpretability Beyond Attention Visualization [87.96102461221415]
自己保持技術、特にトランスフォーマーは、テキスト処理の分野を支配しています。
本研究では,トランスフォーマーネットワークの関連性を計算する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-12-17T18:56:33Z) - Learning Hard Retrieval Decoder Attention for Transformers [69.40942736249397]
トランスフォーマー変換モデルは、容易に並列化できるマルチヘッドアテンション機構に基づいている。
ハード検索の注意機構は復号化の1.43倍高速であることを示す。
論文 参考訳(メタデータ) (2020-09-30T13:18:57Z) - Telling BERT's full story: from Local Attention to Global Aggregation [14.92157586545743]
トランスアーキテクチャにおける自己注意型ヘッドの挙動を深く検討する。
いずれにせよ,注目分布は,注目頭部の局所行動に関する洞察を与えることができることを示す。
論文 参考訳(メタデータ) (2020-04-10T01:36:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。