論文の概要: Attention is Not All You Need: Pure Attention Loses Rank Doubly
Exponentially with Depth
- arxiv url: http://arxiv.org/abs/2103.03404v2
- Date: Tue, 1 Aug 2023 14:27:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 18:35:36.702445
- Title: Attention is Not All You Need: Pure Attention Loses Rank Doubly
Exponentially with Depth
- Title(参考訳): 注意がすべてではない: 純粋注意力は深さで2倍に低下する
- Authors: Yihe Dong, Jean-Baptiste Cordonnier, Andreas Loukas
- Abstract要約: この研究は、自己注意ネットワークを理解するための新しい方法を提案する。
それらの出力は、より小さな項の和に分解できることを示す。
我々は、自己意識が「トークン」に対して強い帰納的偏見を持っていることを証明している。
- 参考スコア(独自算出の注目度): 48.16156149749371
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention-based architectures have become ubiquitous in machine learning, yet
our understanding of the reasons for their effectiveness remains limited. This
work proposes a new way to understand self-attention networks: we show that
their output can be decomposed into a sum of smaller terms, each involving the
operation of a sequence of attention heads across layers. Using this
decomposition, we prove that self-attention possesses a strong inductive bias
towards "token uniformity". Specifically, without skip connections or
multi-layer perceptrons (MLPs), the output converges doubly exponentially to a
rank-1 matrix. On the other hand, skip connections and MLPs stop the output
from degeneration. Our experiments verify the identified convergence phenomena
on different variants of standard transformer architectures.
- Abstract(参考訳): 注意に基づくアーキテクチャは機械学習においてユビキタスになってきたが、その有効性に対する我々の理解は依然として限られている。
本研究は,自己着脱ネットワークを理解する新しい方法を提案する。これらのアウトプットがより小さな項の和に分解され,各層にまたがる注意ヘッドの一連の操作を含むことを示す。
この分解を用いて、自己意図が「一様性」に対して強い帰納バイアスを持つことを示す。
具体的には、スキップ接続や多層パーセプトロン(MLP)を使わずに、出力は2倍指数的にランク1行列に収束する。
一方、接続をスキップし、MLPは出力を退化から停止する。
本実験は,標準変圧器アーキテクチャの異なる変種における同定収束現象を検証する。
関連論文リスト
- On the Benefits of Rank in Attention Layers [38.651863218241154]
注意機構のランクと頭数との間には、劇的なトレードオフがあることが示される。
本研究は,本研究の成果を検証した既成のトランスフォーマーを用いた実験である。
論文 参考訳(メタデータ) (2024-07-23T03:40:24Z) - How Transformers Learn Causal Structure with Gradient Descent [49.808194368781095]
自己注意はトランスフォーマーが因果構造をエンコードすることを可能にする。
我々は、潜在因果構造を学習する必要があるコンテキスト内学習タスクを導入する。
我々は、文脈内学習タスクで訓練されたトランスフォーマーが、様々な因果構造を回復できることを示す。
論文 参考訳(メタデータ) (2024-02-22T17:47:03Z) - FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。
その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:59:39Z) - Self-attention Networks Localize When QK-eigenspectrum Concentrates [9.379890125442335]
自己認識メカニズムは、現代の機械学習で一般的である。
2つの議論が、モデルのパフォーマンスに注意を向けるローカライゼーションを結び付けている。
我々は,小さな固有スペクトルの分散が注意を局所化させることを示した。
論文 参考訳(メタデータ) (2024-02-03T09:35:53Z) - Unraveling Attention via Convex Duality: Analysis and Interpretations of
Vision Transformers [52.468311268601056]
本稿では凸双対性のレンズを通して注意を解析する。
我々は、大域的最適性に対して解釈可能で解ける等価な有限次元凸問題を導出する。
自己認識ネットワークがトークンを暗黙的にクラスタリングする方法を示す。
論文 参考訳(メタデータ) (2022-05-17T04:01:15Z) - Multiformer: A Head-Configurable Transformer-Based Model for Direct
Speech Translation [0.0]
MultiformerはTransformerベースのモデルであり、各ヘッドに異なるアテンションメカニズムを使用することができる。
これを行うことで、モデルはより多様なトークン相互作用の抽出に自己注意を偏らせることができる。
その結果、異なる頭部と層に沿った注意パターンの混合は、我々の基準線を最大0.7BLEUで上回ることがわかった。
論文 参考訳(メタデータ) (2022-05-14T17:37:47Z) - Revisiting Over-smoothing in BERT from the Perspective of Graph [111.24636158179908]
近年,トランスフォーマーモデルにおける過度に平滑化現象が視覚と言語の両方で観測されている。
層正規化はトランスフォーマーモデルにおける過度に平滑な問題において重要な役割を果たす。
異なる層からの表現を適応的に組み合わせ、出力をより多様にする階層的融合戦略を考察する。
論文 参考訳(メタデータ) (2022-02-17T12:20:52Z) - Generic Attention-model Explainability for Interpreting Bi-Modal and
Encoder-Decoder Transformers [78.26411729589526]
トランスフォーマーアーキテクチャによる予測を説明する最初の方法を提案する。
本手法は,一様説明性に適応した既存手法よりも優れている。
論文 参考訳(メタデータ) (2021-03-29T15:03:11Z) - Attention that does not Explain Away [54.42960937271612]
Transformerアーキテクチャに基づくモデルは、大規模なタスクに対して競合するアーキテクチャに基づくモデルよりも精度が高い。
Transformerのユニークな特徴は、任意の距離で自由な情報の流れを可能にする自己認識機構の普遍的な応用である。
本稿では,実装が簡単で,"説明的回避"効果を避けるための理論的保証を提供する,二重正規化アテンション方式を提案する。
論文 参考訳(メタデータ) (2020-09-29T21:05:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。