論文の概要: Geometric Interpretation of Layer Normalization and a Comparative Analysis with RMSNorm
- arxiv url: http://arxiv.org/abs/2409.12951v2
- Date: Sat, 01 Feb 2025 06:06:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 16:08:07.434823
- Title: Geometric Interpretation of Layer Normalization and a Comparative Analysis with RMSNorm
- Title(参考訳): 層正規化の幾何学的解釈とRMSNormとの比較解析
- Authors: Akshat Gupta, Atahan Ozdemir, Gopala Anumanchipalli,
- Abstract要約: 本稿では,LayerNormの幾何学的解釈について述べる。
我々は、LayerNormの定義が本質的に一様ベクトルと結びついていることを示します。
LayerNormの標準化ステップは3つの簡単なステップで理解できることを示す。
- 参考スコア(独自算出の注目度): 2.569159339315845
- License:
- Abstract: This paper presents a novel geometric interpretation of LayerNorm and explores how LayerNorm influences the norm and orientation of hidden vectors in the representation space. With these geometric insights, we prepare the foundation for comparing LayerNorm with RMSNorm. We show that the definition of LayerNorm is innately linked to the uniform vector, defined as $\boldsymbol{1} = [1, 1, 1, 1, \cdots, 1]^T \in \mathbb{R}^d$. We then show that the standardization step in LayerNorm can be understood in three simple steps: (i) remove the component of a vector along the uniform vector, (ii) normalize the remaining vector, and (iii) scale the resultant vector by $\sqrt{d}$, where $d$ is the dimensionality of the representation space. We also provide additional insights into how LayerNorm operates at inference time. Finally, we compare the hidden representations of LayerNorm-based LLMs with models trained using RMSNorm and show that all LLMs naturally operate orthogonal to the uniform vector at inference time, that is, on average they do not have a component along the uniform vector during inference. This presents the first mechanistic evidence that removing the component along the uniform vector in LayerNorm is a redundant step. These results advocate for using RMSNorm over LayerNorm which is also more computationally efficient.
- Abstract(参考訳): 本稿では、LayerNormの幾何学的解釈を新たに提案し、LayerNormが表現空間における隠れベクトルのノルムと向きにどのように影響するかを考察する。
これらの幾何学的洞察により、LayerNormとRMSNormを比較するための基盤を準備します。
ここでは、LayerNormの定義が本質的に一様ベクトルに結びついていることを示し、$\boldsymbol{1} = [1, 1, 1, \cdots, 1]^T \in \mathbb{R}^d$ と定義される。
次に、LayerNormの標準化ステップが3つの簡単なステップで理解できることを示します。
(i)一様ベクトルに沿ったベクトルの成分を除去する。
(ii)残りのベクトルを正規化し、
(iii) 結果ベクトルを$\sqrt{d}$ でスケールし、$d$ は表現空間の次元である。
また、推論時にLayerNormがどのように動作するかについてのさらなる洞察も提供します。
最後に、LayerNorm ベースの LLM の隠れ表現と RMSNorm を用いて訓練されたモデルを比較し、全ての LLM が推論時において一様ベクトルに対して自然に直交することを示す。
これは、LayerNorm内の一様ベクトルに沿ったコンポーネントを削除することは冗長なステップである、という最初の力学的な証拠を示す。
これらの結果は、より計算効率のよいLayerNorm上でRMSNormを使うことを提唱している。
関連論文リスト
- Symbolic Disentangled Representations for Images [83.88591755871734]
本稿では,ArSyD (Architecture for Disentanglement) を提案する。
我々は,dSpritesおよびCLEVRデータセットのArSyDについて検討し,学習されたシンボル不絡み表現の包括的解析を行う。
論文 参考訳(メタデータ) (2024-12-25T09:20:13Z) - An Intrinsic Vector Heat Network [64.55434397799728]
本稿では,3次元に埋め込まれた接ベクトル場を学習するためのニューラルネットワークアーキテクチャを提案する。
本研究では, ベクトル値の特徴データを空間的に伝播させるために, トレーニング可能なベクトル熱拡散モジュールを提案する。
また,四面体メッシュ生成の産業的有用性に対する本手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-06-14T00:40:31Z) - Geometry and Dynamics of LayerNorm [0.0]
LayerNormは、入力アクティベーションベクトルに線形射影、非線形スケーリング、アフィン変換の合成を実装している。
LayerNormのすべての結果は(N-1)-次元超平面の交叉とN-次元超楕円体の内部にある。
論文 参考訳(メタデータ) (2024-05-07T09:01:02Z) - Householder Projector for Unsupervised Latent Semantics Discovery [58.92485745195358]
Householder Projectorは、画像の忠実さを犠牲にすることなく、StyleGANがより複雑で正確なセマンティック属性を見つけるのに役立つ。
プロジェクタを事前訓練したStyleGAN2/StyleGAN3に統合し、複数のベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2023-07-16T11:43:04Z) - On the Expressivity Role of LayerNorm in Transformers' Attention [20.185486717922615]
私たちは、LayerNormがそれに従うアテンション層の表現性に不可欠であることを示します。
これは、LayerNormの唯一の役割は、フォワードパス中のアクティベーションの正規化である、という一般的な信念とは対照的である。
論文 参考訳(メタデータ) (2023-05-04T06:32:05Z) - Self-Supervised Learning Disentangled Group Representation as Feature [82.07737719232972]
既存の自己監督学習(SSL)は、回転や着色などの単純な拡張機能のみを分解することを示す。
反復的分割に基づく不変リスク最小化(IP-IRM)を提案する。
我々は、IP-IRMが完全に不整合表現に収束し、様々なベンチマークでその効果を示すことを証明した。
論文 参考訳(メタデータ) (2021-10-28T16:12:33Z) - A Differential Geometry Perspective on Orthogonal Recurrent Models [56.09491978954866]
我々は微分幾何学からのツールと洞察を用いて、直交rnnの新しい視点を提供する。
直交RNNは、発散自由ベクトル場の空間における最適化と見なすことができる。
この観測に動機づけられて、ベクトル場全体の空間にまたがる新しいリカレントモデルの研究を行う。
論文 参考訳(メタデータ) (2021-02-18T19:39:22Z) - Variable Binding for Sparse Distributed Representations: Theory and
Applications [4.150085009901543]
記号推論とニューラルネットワークは、しばしば互換性のないアプローチとみなされる。ベクトル記号アーキテクチャ(VSAs)として知られるコネクショナリストモデルは、このギャップを埋める可能性がある。
VSAsは密度の高い擬似ランダムベクターでシンボルを符号化し、そこで情報はニューロン全体にわたって分散される。
VSAsにおける高密度ベクトル間の変数結合は、次元性を高める演算であるスパースベクトル間のテンソル積結合と数学的に等価であることを示す。
論文 参考訳(メタデータ) (2020-09-14T20:40:09Z) - On Mean Absolute Error for Deep Neural Network Based Vector-to-Vector
Regression [79.86233860519621]
我々は,ディープニューラルネットワーク(DNN)に基づくベクトル-ベクトル回帰の損失関数として,平均絶対誤差(MAE)の特性を利用する。
我々は,MAEをラプラシアン分布によってモデル化された誤差として解釈できることを示す。
論文 参考訳(メタデータ) (2020-08-12T22:41:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。