論文の概要: Re-Introducing LayerNorm: Geometric Meaning, Irreversibility and a Comparative Study with RMSNorm
- arxiv url: http://arxiv.org/abs/2409.12951v1
- Date: Thu, 19 Sep 2024 17:58:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 12:48:01.333908
- Title: Re-Introducing LayerNorm: Geometric Meaning, Irreversibility and a Comparative Study with RMSNorm
- Title(参考訳): LayerNormの再導入:幾何学的意味、不可逆性およびRMSNormとの比較研究
- Authors: Akshat Gupta, Atahan Ozdemir, Gopala Anumanchipalli,
- Abstract要約: 表現空間における隠れベクトルのノルムと配向にLayerNormがどのように影響するかを示す。
i) 一様ベクトルに沿ったベクトルの成分を除去し、 (ii) 残りのベクトルを正規化し、 (iii) 結果ベクトルを$sqrtd$でスケールする。
- 参考スコア(独自算出の注目度): 2.569159339315845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Layer normalization is a pivotal step in the transformer architecture. This paper delves into the less explored geometric implications of this process, examining how LayerNorm influences the norm and orientation of hidden vectors in the representation space. We show that the definition of LayerNorm is innately linked to the uniform vector, defined as $\boldsymbol{1} = [1, 1, 1, 1, \cdots, 1]^T \in \mathbb{R}^d$. We then show that the standardization step in LayerNorm can be understood in three simple steps: (i) remove the component of a vector along the uniform vector, (ii) normalize the remaining vector, and (iii) scale the resultant vector by $\sqrt{d}$, where $d$ is the dimensionality of the representation space. We also introduce the property of "irreversibility" for LayerNorm, where we show that the information lost during the normalization process cannot be recovered. In other words, unlike batch normalization, LayerNorm cannot learn an identity transform. While we present possible arguments for removing the component along the uniform vector, the choice of removing this component seems arbitrary and not well motivated by the original authors. To evaluate the usefulness of this step, we compare the hidden representations of LayerNorm-based LLMs with models trained using RMSNorm and show that all LLMs naturally align representations orthogonal to the uniform vector, presenting the first mechanistic evidence that removing the component along the uniform vector in LayerNorm is a redundant step. Our findings support the use of RMSNorm over LayerNorm as it is not only more computationally efficient with comparable downstream performance, but also learns a similar distribution of hidden representations that operate orthogonal to the uniform vector.
- Abstract(参考訳): 層正規化はトランスアーキテクチャにおける重要なステップである。
本稿では、この過程の幾何的含意を考察し、LayerNormが表現空間における隠れベクトルのノルムと配向にどのように影響するかを考察する。
ここでは、LayerNormの定義が本質的に一様ベクトルに結びついていることを示し、$\boldsymbol{1} = [1, 1, 1, \cdots, 1]^T \in \mathbb{R}^d$ と定義される。
次に、LayerNormの標準化ステップが3つの簡単なステップで理解できることを示します。
(i)一様ベクトルに沿ったベクトルの成分を除去する。
(ii)残りのベクトルを正規化し、
(iii) 結果ベクトルを$\sqrt{d}$ でスケールし、$d$ は表現空間の次元である。
また、LayerNormに対して「可逆性」の特性を導入し、正規化プロセス中に失われた情報が回復できないことを示す。
言い換えれば、バッチ正規化とは異なり、LayerNormはアイデンティティ変換を学べない。
我々は、一様ベクトルに沿った成分を除去するための引数を示すが、この成分を除去する選択は、任意に思えるし、原作者の動機もよくない。
このステップの有用性を評価するために、LayerNorm ベースの LLM の隠れ表現と RMSNorm を用いて訓練されたモデルを比較し、全ての LLM が一様ベクトルに直交する表現を自然に整列することを示す。
この結果から,LayerNorm上でのRMSNormの使用は,より計算効率が高いだけでなく,一様ベクトルに直交する隠蔽表現の分布も学習できることがわかった。
関連論文リスト
- Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Geometry and Dynamics of LayerNorm [0.0]
LayerNormは、入力アクティベーションベクトルに線形射影、非線形スケーリング、アフィン変換の合成を実装している。
LayerNormのすべての結果は(N-1)-次元超平面の交叉とN-次元超楕円体の内部にある。
論文 参考訳(メタデータ) (2024-05-07T09:01:02Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Householder Projector for Unsupervised Latent Semantics Discovery [58.92485745195358]
Householder Projectorは、画像の忠実さを犠牲にすることなく、StyleGANがより複雑で正確なセマンティック属性を見つけるのに役立つ。
プロジェクタを事前訓練したStyleGAN2/StyleGAN3に統合し、複数のベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2023-07-16T11:43:04Z) - On the Expressivity Role of LayerNorm in Transformers' Attention [20.185486717922615]
私たちは、LayerNormがそれに従うアテンション層の表現性に不可欠であることを示します。
これは、LayerNormの唯一の役割は、フォワードパス中のアクティベーションの正規化である、という一般的な信念とは対照的である。
論文 参考訳(メタデータ) (2023-05-04T06:32:05Z) - Neural Vector Fields: Implicit Representation by Explicit Learning [63.337294707047036]
ニューラルベクトル場 (Neural Vector Fields, NVF) という新しい3次元表現法を提案する。
メッシュを直接操作するための明示的な学習プロセスを採用するだけでなく、符号なし距離関数(UDF)の暗黙的な表現も採用している。
提案手法は,まず表面への変位クエリを予測し,テキスト再構成として形状をモデル化する。
論文 参考訳(メタデータ) (2023-03-08T02:36:09Z) - Self-Supervised Learning Disentangled Group Representation as Feature [82.07737719232972]
既存の自己監督学習(SSL)は、回転や着色などの単純な拡張機能のみを分解することを示す。
反復的分割に基づく不変リスク最小化(IP-IRM)を提案する。
我々は、IP-IRMが完全に不整合表現に収束し、様々なベンチマークでその効果を示すことを証明した。
論文 参考訳(メタデータ) (2021-10-28T16:12:33Z) - On Mean Absolute Error for Deep Neural Network Based Vector-to-Vector
Regression [79.86233860519621]
我々は,ディープニューラルネットワーク(DNN)に基づくベクトル-ベクトル回帰の損失関数として,平均絶対誤差(MAE)の特性を利用する。
我々は,MAEをラプラシアン分布によってモデル化された誤差として解釈できることを示す。
論文 参考訳(メタデータ) (2020-08-12T22:41:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。