論文の概要: On the Expressivity Role of LayerNorm in Transformers' Attention
- arxiv url: http://arxiv.org/abs/2305.02582v2
- Date: Thu, 11 May 2023 07:16:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 17:23:02.858073
- Title: On the Expressivity Role of LayerNorm in Transformers' Attention
- Title(参考訳): トランスフォーマの注意における層ノルムの表現性の役割について
- Authors: Shaked Brody, Uri Alon, Eran Yahav
- Abstract要約: 私たちは、LayerNormがそれに従うアテンション層の表現性に不可欠であることを示します。
これは、LayerNormの唯一の役割は、フォワードパス中のアクティベーションの正規化である、という一般的な信念とは対照的である。
- 参考スコア(独自算出の注目度): 20.185486717922615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Layer Normalization (LayerNorm) is an inherent component in all
Transformer-based models. In this paper, we show that LayerNorm is crucial to
the expressivity of the multi-head attention layer that follows it. This is in
contrast to the common belief that LayerNorm's only role is to normalize the
activations during the forward pass, and their gradients during the backward
pass. We consider a geometric interpretation of LayerNorm and show that it
consists of two components: (a) projection of the input vectors to a $d-1$
space that is orthogonal to the $\left[1,1,...,1\right]$ vector, and (b)
scaling of all vectors to the same norm of $\sqrt{d}$. We show that each of
these components is important for the attention layer that follows it in
Transformers: (a) projection allows the attention mechanism to create an
attention query that attends to all keys equally, offloading the need to learn
this operation by the attention; and (b) scaling allows each key to potentially
receive the highest attention, and prevents keys from being "un-select-able".
We show empirically that Transformers do indeed benefit from these properties
of LayeNorm in general language modeling and even in computing simple functions
such as "majority". Our code is available at
https://github.com/tech-srl/layer_norm_expressivity_role .
- Abstract(参考訳): 層正規化(layernorm)は、全てのトランスフォーマーモデルに固有のコンポーネントである。
本稿では、LayerNormが、それに続くマルチヘッドアテンション層の表現性に不可欠であることを示す。
これは、LayerNormの唯一の役割は前方通過時の活性化と後方通過時の勾配を正規化することだという一般的な信念とは対照的である。
私たちはLayerNormの幾何学的解釈を考察し、2つの構成要素からなることを示す。
(a)$\left[1,1,...,1\right]$ベクトルに直交する$d-1$空間への入力ベクトルの射影、および
(b)すべてのベクトルを$\sqrt{d}$という同じノルムにスケーリングする。
これらの各コンポーネントは、トランスフォーマーでそれに従うアテンション層にとって重要であることを示す。
(a)プロジェクションにより、注意機構は、すべてのキーに等しく出席する注意クエリを作成し、注意によってこの操作を学ぶ必要性をオフロードすることができる。
(b)スケーリングにより、各キーが最も注目される可能性があり、キーが「選択不能」になることを防げる。
本稿では,多言語モデリングにおけるLayeNormの特性や,"majority"のような単純な関数の計算において,Transformerが真に有益であることを示す。
私たちのコードはhttps://github.com/tech-srl/layer_norm_expressivity_roleで利用可能です。
関連論文リスト
- p-Laplacian Transformer [7.2541371193810384]
グラフと画像信号処理をルーツとする$p$-Laplacian正規化は、これらのデータに対する正規化効果を制御するパラメータ$p$を導入している。
まず、自己注意機構が最小のラプラシアン正規化を得ることを示す。
次に、新しい変圧器のクラス、すなわち$p$-Laplacian Transformer (p-LaT)を提案する。
論文 参考訳(メタデータ) (2023-11-06T16:25:56Z) - On Separate Normalization in Self-supervised Transformers [26.768221386486353]
トークンと[]シンボルの正規化レイヤを分離した簡単な修正を提案する。
本手法は,両方のトークンに対して同一の正規化統計値を使用することによる潜在的な負の効果を軽減することを目的としている。
従来の正規化層を2つの別々の層に置き換える場合、平均2.7%の性能改善が観察される。
論文 参考訳(メタデータ) (2023-09-22T15:30:53Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Is Attention All NeRF Needs? [103.51023982774599]
Generalizable NeRF Transformer (GNT) は、ソースビューから高速にNeRF(Neural Radiance Fields)を効率的に再構築する、純粋で統一されたトランスフォーマーベースのアーキテクチャである。
GNTは、2つのトランスフォーマーベースのステージをカプセル化することにより、一般化可能なニューラルシーン表現とレンダリングを実現する。
論文 参考訳(メタデータ) (2022-07-27T05:09:54Z) - Unifying Global-Local Representations in Salient Object Detection with Transformer [55.23033277636774]
我々は、視覚変換器という新しいアテンションベースのエンコーダを有能な物体検出に導入する。
非常に浅い層でのグローバルビューでは、トランスフォーマーエンコーダはより局所的な表現を保持する。
提案手法は,5つのベンチマークにおいて,他のFCN法およびトランスフォーマー法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-05T17:51:32Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z) - Video Super-Resolution Transformer [85.11270760456826]
ビデオ超解像(VSR)は、高解像度映像を対応する低解像度バージョンから復元することを目的としており、時空間シーケンス予測問題である。
近年,シークエンス・ツー・シーケンス・モデリングの並列計算能力により,Transformerが人気を集めている。
本稿では,空間的・時間的畳み込み型自己認識層を理論的に理解し,局所性情報を活用する。
論文 参考訳(メタデータ) (2021-06-12T20:00:32Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。