論文の概要: Peri-LN: Revisiting Normalization Layer in the Transformer Architecture
- arxiv url: http://arxiv.org/abs/2502.02732v3
- Date: Fri, 06 Jun 2025 11:19:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:42.807803
- Title: Peri-LN: Revisiting Normalization Layer in the Transformer Architecture
- Title(参考訳): Peri-LN: トランスフォーマーアーキテクチャにおける正規化レイヤの再検討
- Authors: Jeonghoon Kim, Byeongchan Lee, Cheonbok Park, Yeontaek Oh, Beomjun Kim, Taehwan Yoo, Seongjin Shin, Dongyoon Han, Jinwoo Shin, Kang Min Yoo,
- Abstract要約: Pre-LNとPost-LNは、大規模なトレーニングの制限にもかかわらず、長年にわたってプラクティスを支配してきた。
最近、いくつかのオープンソースモデルが静かに第3の戦略を採用し始めた。
Peri-LNは、よりバランスの取れた分散成長、より安定な勾配流、収束安定性を実現する。
- 参考スコア(独自算出の注目度): 57.08322913112157
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Selecting a layer normalization (LN) strategy that stabilizes training and speeds convergence in Transformers remains difficult, even for today's large language models (LLM). We present a comprehensive analytical foundation for understanding how different LN strategies influence training dynamics in large-scale Transformers. Until recently, Pre-LN and Post-LN have long dominated practices despite their limitations in large-scale training. However, several open-source models have recently begun silently adopting a third strategy without much explanation. This strategy places normalization layer peripherally around sublayers, a design we term Peri-LN. While Peri-LN has demonstrated promising performance, its precise mechanisms and benefits remain almost unexplored. Our in-depth analysis delineates the distinct behaviors of LN strategies, showing how each placement shapes activation variance and gradient propagation. To validate our theoretical insight, we conduct extensive experiments on Transformers up to $3.2$B parameters, showing that Peri-LN consistently achieves more balanced variance growth, steadier gradient flow, and convergence stability. Our results suggest that Peri-LN warrants broader consideration for large-scale Transformer architectures, providing renewed insights into the optimal placement of LN.
- Abstract(参考訳): トランスフォーマーのトレーニングと速度収束を安定化するレイヤ正規化(LN)戦略の選択は、今日の大規模言語モデル(LLM)においても難しいままである。
大規模トランスフォーマーにおけるLN戦略の違いがトレーニング力学にどのように影響するかを理解するための総合解析基盤を提供する。
最近まで、Pre-LNとPost-LNは大規模なトレーニングの制限にもかかわらず、長い間プラクティスを支配してきた。
しかし、いくつかのオープンソースモデルは、最近静かに第3の戦略を採用し始めた。
この戦略は、Peri-LN(英語版)と呼ばれる設計であるサブレイヤーの周辺に正規化層を配置する。
Peri-LNは有望な性能を示したが、その正確なメカニズムと利点はほとんど探索されていない。
我々は,LN戦略の異なる挙動を詳細に分析し,各配置がアクティベーションのばらつきや勾配の伝播をいかに形作るかを示した。
理論的な知見を検証するために、変換器の最大パラメータを3.2$Bまで拡張した実験を行い、Peri-LNはよりバランスの取れた分散成長、より安定な勾配流、収束安定性を実現していることを示した。
以上の結果から,Peri-LNは大規模トランスフォーマーアーキテクチャの広範な検討を保証し,LNの最適配置に関する新たな知見を提供する。
関連論文リスト
- The Curse of Depth in Large Language Models [28.37870372690079]
本稿では,最近のLarge Language Models(LLMs)における近年の観察に注目し,説明し,対処する概念であるCurse of Depthを紹介する。
この現象は、Llama、Mistral、DeepSeek、QwenといったLLMの最も人気のあるファミリーにまたがって初めて確認した。
実験の結果, モデルサイズを130Mから1Bに分散したLayerNorm Scalingは, Pre-LNと比較して, LLM事前学習性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-02-09T07:03:36Z) - Mix-LN: Unleashing the Power of Deeper Layers by Combining Pre-LN and Post-LN [19.776151399951672]
Mix-LNは、Pre-LNとPost-LNの強度を同じモデルで組み合わせた新しい正規化手法である。
70Mから7Bまでの様々なモデルサイズの実験では、Mix-LNはPre-LNとPost-LNの両方で一貫して優れていた。
論文 参考訳(メタデータ) (2024-12-18T12:39:53Z) - On the Long Range Abilities of Transformers [69.3021852589771]
トランスアーキテクチャの変更を最小限に抑えることで,Long Range Arenaベンチマークの性能を大幅に向上させることができることを示す。
長距離タスクの2つの鍵となる原理(すなわち、滑らか性に対する帰納的バイアス)と局所性(すなわち、局所性)である。
以下に示すように、これらのアイデアを注意機構に組み込むことで、追加の計算量や追加のトレーニング可能なパラメータなしで結果を改善することができる。
論文 参考訳(メタデータ) (2023-11-28T09:21:48Z) - Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - ResiDual: Transformer with Dual Residual Connections [106.38073506751003]
広く使われている2つの変種は、Post-Layer-Normalization (Post-LN)とPre-Layer-Normalization (Pre-LN)である。
Post-LNは、深層トランスフォーマーのトレーニングを妨げる勾配消滅問題を引き起こし、Pre-LNはモデルキャパシティを制限する表現崩壊問題を引き起こす。
本稿では,PPLN(Pre-Post-LN)を用いた新しいトランスフォーマーアーキテクチャResiDualを提案する。
論文 参考訳(メタデータ) (2023-04-28T12:19:47Z) - Unified Normalization for Accelerating and Stabilizing Transformers [35.07454490355906]
層正規化(LN)は各トークン内のアクティベーションを正規化し、ロバスト性を高める。
LNは推論におけるオンザフライ統計計算と除算および平方根演算を必要とする。
我々は、他の線形演算と融合して推論を高速化するUnified Normalization (UN)を提案する。
論文 参考訳(メタデータ) (2022-08-02T08:41:31Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - B2T Connection: Serving Stability and Performance in Deep Transformers [40.44674210101826]
最近のトランスフォーマーは、ディープトランスフォーマーを備えたPost-LNでは、トレーニングが不安定で、役に立たないモデルになるため、Pre-LNになる傾向にある。
Post-LNは比較的浅いトランスフォーマーにおいて、Pre-LNよりも一貫して優れたパフォーマンスを実現している。
本稿では,Post-LNの簡易な修正により,高い安定性と効果的なトレーニングを両立できる手法を提案する。
論文 参考訳(メタデータ) (2022-06-01T08:43:20Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。