論文の概要: On the Expressivity Role of LayerNorm in Transformers' Attention
- arxiv url: http://arxiv.org/abs/2305.02582v2
- Date: Thu, 11 May 2023 07:16:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 17:23:02.858073
- Title: On the Expressivity Role of LayerNorm in Transformers' Attention
- Title(参考訳): トランスフォーマの注意における層ノルムの表現性の役割について
- Authors: Shaked Brody, Uri Alon, Eran Yahav
- Abstract要約: 私たちは、LayerNormがそれに従うアテンション層の表現性に不可欠であることを示します。
これは、LayerNormの唯一の役割は、フォワードパス中のアクティベーションの正規化である、という一般的な信念とは対照的である。
- 参考スコア(独自算出の注目度): 20.185486717922615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Layer Normalization (LayerNorm) is an inherent component in all
Transformer-based models. In this paper, we show that LayerNorm is crucial to
the expressivity of the multi-head attention layer that follows it. This is in
contrast to the common belief that LayerNorm's only role is to normalize the
activations during the forward pass, and their gradients during the backward
pass. We consider a geometric interpretation of LayerNorm and show that it
consists of two components: (a) projection of the input vectors to a $d-1$
space that is orthogonal to the $\left[1,1,...,1\right]$ vector, and (b)
scaling of all vectors to the same norm of $\sqrt{d}$. We show that each of
these components is important for the attention layer that follows it in
Transformers: (a) projection allows the attention mechanism to create an
attention query that attends to all keys equally, offloading the need to learn
this operation by the attention; and (b) scaling allows each key to potentially
receive the highest attention, and prevents keys from being "un-select-able".
We show empirically that Transformers do indeed benefit from these properties
of LayeNorm in general language modeling and even in computing simple functions
such as "majority". Our code is available at
https://github.com/tech-srl/layer_norm_expressivity_role .
- Abstract(参考訳): 層正規化(layernorm)は、全てのトランスフォーマーモデルに固有のコンポーネントである。
本稿では、LayerNormが、それに続くマルチヘッドアテンション層の表現性に不可欠であることを示す。
これは、LayerNormの唯一の役割は前方通過時の活性化と後方通過時の勾配を正規化することだという一般的な信念とは対照的である。
私たちはLayerNormの幾何学的解釈を考察し、2つの構成要素からなることを示す。
(a)$\left[1,1,...,1\right]$ベクトルに直交する$d-1$空間への入力ベクトルの射影、および
(b)すべてのベクトルを$\sqrt{d}$という同じノルムにスケーリングする。
これらの各コンポーネントは、トランスフォーマーでそれに従うアテンション層にとって重要であることを示す。
(a)プロジェクションにより、注意機構は、すべてのキーに等しく出席する注意クエリを作成し、注意によってこの操作を学ぶ必要性をオフロードすることができる。
(b)スケーリングにより、各キーが最も注目される可能性があり、キーが「選択不能」になることを防げる。
本稿では,多言語モデリングにおけるLayeNormの特性や,"majority"のような単純な関数の計算において,Transformerが真に有益であることを示す。
私たちのコードはhttps://github.com/tech-srl/layer_norm_expressivity_roleで利用可能です。
関連論文リスト
- Rethinking Decoders for Transformer-based Semantic Segmentation: Compression is All You Need [3.218600495900291]
セマンティックセグメンテーションと圧縮の間には根本的な関係があることを論じる。
PrIncipled SemantiC SegemenTation(DEPICT)のためのホワイトボックス完全注意型Decoderを考案した。
ADE20Kで行った実験では、DEPICTはブラックボックスであるSegmenterよりも一貫して優れていた。
論文 参考訳(メタデータ) (2024-11-05T12:10:02Z) - Re-Introducing LayerNorm: Geometric Meaning, Irreversibility and a Comparative Study with RMSNorm [2.569159339315845]
表現空間における隠れベクトルのノルムと配向にLayerNormがどのように影響するかを示す。
i) 一様ベクトルに沿ったベクトルの成分を除去し、 (ii) 残りのベクトルを正規化し、 (iii) 結果ベクトルを$sqrtd$でスケールする。
論文 参考訳(メタデータ) (2024-09-19T17:58:07Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Is Attention All NeRF Needs? [103.51023982774599]
Generalizable NeRF Transformer (GNT) は、ソースビューから高速にNeRF(Neural Radiance Fields)を効率的に再構築する、純粋で統一されたトランスフォーマーベースのアーキテクチャである。
GNTは、2つのトランスフォーマーベースのステージをカプセル化することにより、一般化可能なニューラルシーン表現とレンダリングを実現する。
論文 参考訳(メタデータ) (2022-07-27T05:09:54Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z) - Video Super-Resolution Transformer [85.11270760456826]
ビデオ超解像(VSR)は、高解像度映像を対応する低解像度バージョンから復元することを目的としており、時空間シーケンス予測問題である。
近年,シークエンス・ツー・シーケンス・モデリングの並列計算能力により,Transformerが人気を集めている。
本稿では,空間的・時間的畳み込み型自己認識層を理論的に理解し,局所性情報を活用する。
論文 参考訳(メタデータ) (2021-06-12T20:00:32Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。