論文の概要: How Much Does Attention Actually Attend? Questioning the Importance of
Attention in Pretrained Transformers
- arxiv url: http://arxiv.org/abs/2211.03495v1
- Date: Mon, 7 Nov 2022 12:37:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 15:45:05.810898
- Title: How Much Does Attention Actually Attend? Questioning the Importance of
Attention in Pretrained Transformers
- Title(参考訳): どれくらいの注意が必要か?
予習変圧器における注意の重要性
- Authors: Michael Hassid, Hao Peng, Daniel Rotem, Jungo Kasai, Ivan Montero,
Noah A. Smith and Roy Schwartz
- Abstract要約: 本稿では,入力依存型アテンション行列を一定値に置き換える新しい探索手法PAPAを紹介する。
入力依存の注意を払わずに、全てのモデルが競争性能を達成できることがわかった。
より弱いモデルよりも、我々の手法を適用することでより良い性能のモデルが失われることが示され、入力依存の注意機構の利用がその成功の要因である可能性が示唆された。
- 参考スコア(独自算出の注目度): 59.57128476584361
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The attention mechanism is considered the backbone of the widely-used
Transformer architecture. It contextualizes the input by computing
input-specific attention matrices. We find that this mechanism, while powerful
and elegant, is not as important as typically thought for pretrained language
models. We introduce PAPA, a new probing method that replaces the
input-dependent attention matrices with constant ones -- the average attention
weights over multiple inputs. We use PAPA to analyze several established
pretrained Transformers on six downstream tasks. We find that without any
input-dependent attention, all models achieve competitive performance -- an
average relative drop of only 8% from the probing baseline. Further, little or
no performance drop is observed when replacing half of the input-dependent
attention matrices with constant (input-independent) ones. Interestingly, we
show that better-performing models lose more from applying our method than
weaker models, suggesting that the utilization of the input-dependent attention
mechanism might be a factor in their success. Our results motivate research on
simpler alternatives to input-dependent attention, as well as on methods for
better utilization of this mechanism in the Transformer architecture.
- Abstract(参考訳): 注意機構は広く使われているTransformerアーキテクチャのバックボーンと考えられている。
入力特有の注意行列を計算して入力をコンテキスト化する。
このメカニズムは強力でエレガントですが、事前訓練された言語モデルの場合ほど重要ではありません。
本稿では,入力依存の注意行列を一定値に置き換える新しい探索手法PAPAを紹介する。
PAPAを用いて、6つの下流タスクで既に訓練済みのトランスフォーマーを解析する。
入力依存の注意を払わずに、全てのモデルが競争的なパフォーマンスを達成することが分かりました。
さらに、入力依存のアテンション行列の半分を定数(入力非依存)のアテンション行列に置き換える場合、ほとんど、あるいは全く性能低下が観察されない。
興味深いことに,より高性能なモデルでは,より弱いモデルよりも方法を適用することによる損失が多く,入力依存的注意機構の利用が成功の要因となる可能性が示唆された。
本研究は,入力依存型アテンションの簡易な代替手法と,トランスフォーマーアーキテクチャにおけるこのメカニズムのより良い活用方法に関する研究を動機付けている。
関連論文リスト
- DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。
その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:59:39Z) - DAE-Former: Dual Attention-guided Efficient Transformer for Medical
Image Segmentation [3.9548535445908928]
DAE-Formerは,自己認識機構を効率的に設計することで,新たな視点の提供を目指す新しい手法である。
本手法は, プレトレーニング重量を必要とせずに, 多臓器心病変と皮膚病変のセグメンテーションデータセットにおける最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-12-27T14:39:39Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z) - Centroid Transformers: Learning to Abstract with Attention [15.506293166377182]
自己注意は入力から特徴を抽出する強力なメカニズムである。
N入力をM出力にマップする自己注意の一般化であるセントロイド注意を$(Mleq N)$に提案する。
本手法は,抽象的テキスト要約,3次元視覚,画像処理など,様々なアプリケーションに適用する。
論文 参考訳(メタデータ) (2021-02-17T07:04:19Z) - Learning Hard Retrieval Decoder Attention for Transformers [69.40942736249397]
トランスフォーマー変換モデルは、容易に並列化できるマルチヘッドアテンション機構に基づいている。
ハード検索の注意機構は復号化の1.43倍高速であることを示す。
論文 参考訳(メタデータ) (2020-09-30T13:18:57Z) - Attention that does not Explain Away [54.42960937271612]
Transformerアーキテクチャに基づくモデルは、大規模なタスクに対して競合するアーキテクチャに基づくモデルよりも精度が高い。
Transformerのユニークな特徴は、任意の距離で自由な情報の流れを可能にする自己認識機構の普遍的な応用である。
本稿では,実装が簡単で,"説明的回避"効果を避けるための理論的保証を提供する,二重正規化アテンション方式を提案する。
論文 参考訳(メタデータ) (2020-09-29T21:05:39Z) - Input-independent Attention Weights Are Expressive Enough: A Study of
Attention in Self-supervised Audio Transformers [55.40032342541187]
我々は、自己教師付きアルゴリズムを用いたトランスフォーマーベースモデルを事前訓練し、下流タスクにおける特徴抽出器として扱う。
このアプローチでは、トレーニングと推論の両方において、通常の自己注意と同等のパフォーマンスで20%の時間を要することが示されています。
論文 参考訳(メタデータ) (2020-06-09T10:40:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。