Fugu-MT 論文翻訳(概要): Geometric Interpretation of Layer Normalization and a Comparative Analysis with RMSNorm

論文の概要: Geometric Interpretation of Layer Normalization and a Comparative Analysis with RMSNorm

arxiv url: http://arxiv.org/abs/2409.12951v2
Date: Sat, 01 Feb 2025 06:06:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-04 15:57:53.189681
Title: Geometric Interpretation of Layer Normalization and a Comparative Analysis with RMSNorm
Title（参考訳）: 層正規化の幾何学的解釈とRMSNormとの比較解析
Authors: Akshat Gupta, Atahan Ozdemir, Gopala Anumanchipalli,
Abstract要約: 本稿では,LayerNormの幾何学的解釈について述べる。我々は、LayerNormの定義が本質的に一様ベクトルと結びついていることを示します。 LayerNormの標準化ステップは3つの簡単なステップで理解できることを示す。
参考スコア（独自算出の注目度）: 2.569159339315845
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper presents a novel geometric interpretation of LayerNorm and explores how LayerNorm influences the norm and orientation of hidden vectors in the representation space. With these geometric insights, we prepare the foundation for comparing LayerNorm with RMSNorm. We show that the definition of LayerNorm is innately linked to the uniform vector, defined as $\boldsymbol{1} = [1, 1, 1, 1, \cdots, 1]^T \in \mathbb{R}^d$. We then show that the standardization step in LayerNorm can be understood in three simple steps: (i) remove the component of a vector along the uniform vector, (ii) normalize the remaining vector, and (iii) scale the resultant vector by $\sqrt{d}$, where $d$ is the dimensionality of the representation space. We also provide additional insights into how LayerNorm operates at inference time. Finally, we compare the hidden representations of LayerNorm-based LLMs with models trained using RMSNorm and show that all LLMs naturally operate orthogonal to the uniform vector at inference time, that is, on average they do not have a component along the uniform vector during inference. This presents the first mechanistic evidence that removing the component along the uniform vector in LayerNorm is a redundant step. These results advocate for using RMSNorm over LayerNorm which is also more computationally efficient.
Abstract（参考訳）: 本稿では、LayerNormの幾何学的解釈を新たに提案し、LayerNormが表現空間における隠れベクトルのノルムと向きにどのように影響するかを考察する。これらの幾何学的洞察により、LayerNormとRMSNormを比較するための基盤を準備します。ここでは、LayerNormの定義が本質的に一様ベクトルに結びついていることを示し、$\boldsymbol{1} = [1, 1, 1, \cdots, 1]^T \in \mathbb{R}^d$ と定義される。次に、LayerNormの標準化ステップが3つの簡単なステップで理解できることを示します。 (i)一様ベクトルに沿ったベクトルの成分を除去する。 (ii)残りのベクトルを正規化し、 (iii) 結果ベクトルを$\sqrt{d}$ でスケールし、$d$ は表現空間の次元である。また、推論時にLayerNormがどのように動作するかについてのさらなる洞察も提供します。最後に、LayerNorm ベースの LLM の隠れ表現と RMSNorm を用いて訓練されたモデルを比較し、全ての LLM が推論時において一様ベクトルに対して自然に直交することを示す。これは、LayerNorm内の一様ベクトルに沿ったコンポーネントを削除することは冗長なステップである、という最初の力学的な証拠を示す。これらの結果は、より計算効率のよいLayerNorm上でRMSNormを使うことを提唱している。

関連論文リスト

Symbolic Disentangled Representations for Images [83.88591755871734]
本稿では,ArSyD (Architecture for Disentanglement) を提案する。我々は,dSpritesおよびCLEVRデータセットのArSyDについて検討し,学習されたシンボル不絡み表現の包括的解析を行う。
論文参考訳（メタデータ） (2024-12-25T09:20:13Z)
Addressing Representation Collapse in Vector Quantized Models with One Linear Layer [13.224989803114632]
ベクトル量子化(VQ)は教師なし学習における連続表現の離散化に不可欠である。 VQは表現の崩壊に悩まされ、コードブックの利用率が低下し、スケーラビリティが制限される。遅延ベースで学習可能な線形変換層を通じてコードベクトルを再パラメータ化する textbfSimpletextbfVQ を提案する。
論文参考訳（メタデータ） (2024-11-04T12:40:18Z)
Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文参考訳（メタデータ） (2024-09-09T18:10:26Z)
An Intrinsic Vector Heat Network [64.55434397799728]
本稿では,3次元に埋め込まれた接ベクトル場を学習するためのニューラルネットワークアーキテクチャを提案する。本研究では, ベクトル値の特徴データを空間的に伝播させるために, トレーニング可能なベクトル熱拡散モジュールを提案する。また,四面体メッシュ生成の産業的有用性に対する本手法の有効性を実証した。
論文参考訳（メタデータ） (2024-06-14T00:40:31Z)
Geometry and Dynamics of LayerNorm [0.0]
LayerNormは、入力アクティベーションベクトルに線形射影、非線形スケーリング、アフィン変換の合成を実装している。 LayerNormのすべての結果は(N-1)-次元超平面の交叉とN-次元超楕円体の内部にある。
論文参考訳（メタデータ） (2024-05-07T09:01:02Z)
Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文参考訳（メタデータ） (2023-08-31T17:57:50Z)
Householder Projector for Unsupervised Latent Semantics Discovery [58.92485745195358]
Householder Projectorは、画像の忠実さを犠牲にすることなく、StyleGANがより複雑で正確なセマンティック属性を見つけるのに役立つ。プロジェクタを事前訓練したStyleGAN2/StyleGAN3に統合し、複数のベンチマークでモデルを評価する。
論文参考訳（メタデータ） (2023-07-16T11:43:04Z)
On the Expressivity Role of LayerNorm in Transformers' Attention [20.185486717922615]
私たちは、LayerNormがそれに従うアテンション層の表現性に不可欠であることを示します。これは、LayerNormの唯一の役割は、フォワードパス中のアクティベーションの正規化である、という一般的な信念とは対照的である。
論文参考訳（メタデータ） (2023-05-04T06:32:05Z)
Neural Vector Fields: Implicit Representation by Explicit Learning [63.337294707047036]
ニューラルベクトル場 (Neural Vector Fields, NVF) という新しい3次元表現法を提案する。メッシュを直接操作するための明示的な学習プロセスを採用するだけでなく、符号なし距離関数(UDF)の暗黙的な表現も採用している。提案手法は,まず表面への変位クエリを予測し,テキスト再構成として形状をモデル化する。
論文参考訳（メタデータ） (2023-03-08T02:36:09Z)
Self-Supervised Learning Disentangled Group Representation as Feature [82.07737719232972]
既存の自己監督学習(SSL)は、回転や着色などの単純な拡張機能のみを分解することを示す。反復的分割に基づく不変リスク最小化(IP-IRM)を提案する。我々は、IP-IRMが完全に不整合表現に収束し、様々なベンチマークでその効果を示すことを証明した。
論文参考訳（メタデータ） (2021-10-28T16:12:33Z)
A Differential Geometry Perspective on Orthogonal Recurrent Models [56.09491978954866]
我々は微分幾何学からのツールと洞察を用いて、直交rnnの新しい視点を提供する。直交RNNは、発散自由ベクトル場の空間における最適化と見なすことができる。この観測に動機づけられて、ベクトル場全体の空間にまたがる新しいリカレントモデルの研究を行う。
論文参考訳（メタデータ） (2021-02-18T19:39:22Z)
Variable Binding for Sparse Distributed Representations: Theory and Applications [4.150085009901543]
記号推論とニューラルネットワークは、しばしば互換性のないアプローチとみなされる。ベクトル記号アーキテクチャ(VSAs)として知られるコネクショナリストモデルは、このギャップを埋める可能性がある。 VSAsは密度の高い擬似ランダムベクターでシンボルを符号化し、そこで情報はニューロン全体にわたって分散される。 VSAsにおける高密度ベクトル間の変数結合は、次元性を高める演算であるスパースベクトル間のテンソル積結合と数学的に等価であることを示す。
論文参考訳（メタデータ） (2020-09-14T20:40:09Z)
On Mean Absolute Error for Deep Neural Network Based Vector-to-Vector Regression [79.86233860519621]
我々は,ディープニューラルネットワーク(DNN)に基づくベクトル-ベクトル回帰の損失関数として,平均絶対誤差(MAE)の特性を利用する。我々は,MAEをラプラシアン分布によってモデル化された誤差として解釈できることを示す。
論文参考訳（メタデータ） (2020-08-12T22:41:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。