論文の概要: Peri-LN: Revisiting Layer Normalization in the Transformer Architecture
- arxiv url: http://arxiv.org/abs/2502.02732v2
- Date: Thu, 06 Feb 2025 20:12:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 11:34:43.101442
- Title: Peri-LN: Revisiting Layer Normalization in the Transformer Architecture
- Title(参考訳): Peri-LN: Transformer アーキテクチャにおけるレイヤ正規化の再検討
- Authors: Jeonghoon Kim, Byeongchan Lee, Cheonbok Park, Yeontaek Oh, Beomjun Kim, Taehwan Yoo, Seongjin Shin, Dongyoon Han, Jinwoo Shin, Kang Min Yoo,
- Abstract要約: Pre-LNとPost-LNは、大規模なトレーニングの制限にもかかわらず、長い間標準のプラクティスを支配してきた。
いくつかのオープンソースの大規模モデルは、最近、多くの説明なしに第3の戦略を静かに採用し始めた。
Peri-LNは、よりバランスの取れた分散成長、より安定な勾配流、収束安定性を実現する。
- 参考スコア(独自算出の注目度): 57.08322913112157
- License:
- Abstract: Designing Transformer architectures with the optimal layer normalization (LN) strategy that ensures large-scale training stability and expedite convergence has remained elusive, even in this era of large language models (LLMs). To this end, we present a comprehensive analytical foundation for understanding how different LN strategies influence training dynamics in large-scale Transformer training. Until recently, Pre-LN and Post-LN have long dominated standard practices despite their limitations in large-scale training. However, several open-source large-scale models have recently begun silently adopting a third strategy without much explanation. This strategy places layer normalization (LN) peripherally around sublayers, a design we term Peri-LN. While Peri-LN has demonstrated promising empirical performance, its precise mechanisms and benefits remain almost unexplored. Our in-depth analysis shows that Peri-LN strikes an ideal balance in variance growth -- unlike Pre-LN and Post-LN, which are prone to vanishing gradients and ``massive activations.'' To validate our theoretical insight, we conduct large-scale experiments on Transformers up to 3.2B parameters, showing that Peri-LN consistently achieves more balanced variance growth, steadier gradient flow, and convergence stability. Our results suggest that Peri-LN warrants broader consideration for large-scale Transformer architectures, providing renewed insights into the optimal placement and application of LN.
- Abstract(参考訳): 大規模言語モデル(LLM)の時代においても,大規模トレーニングの安定性と高速収束を保証するための最適層正規化(LN)戦略によるトランスフォーマーアーキテクチャの設計は,いまだ解明されていない。
この目的のために,大規模トランスフォーマートレーニングにおけるLN戦略の違いがトレーニングダイナミクスに与える影響を理解するための総合的分析基盤を提案する。
最近まで、Pre-LNとPost-LNは大規模なトレーニングの制限にもかかわらず、長い間標準のプラクティスを支配してきた。
しかし、いくつかのオープンソースの大規模モデルは最近、多くの説明なしに第3の戦略を静かに採用し始めた。
この戦略は、ペリ-LN(Peri-LN)と呼ばれるサブレイヤの周辺に層正規化(LN)を配置する。
Peri-LNは有望な経験的性能を示したが、その正確なメカニズムと利点はほとんど探索されていない。
我々の詳細な分析によると、Peri-LNは、Pre-LNやPost-LNとは異なり、分散成長の理想的なバランスをとっています。
理論的な知見を検証するため,変圧器の3.2Bパラメータの大規模実験を行い,Peri-LNが常によりバランスの取れた分散成長,より安定な勾配流,収束安定性を実現していることを示す。
以上の結果から,Peri-LNは大規模トランスフォーマーアーキテクチャの広範な検討を保証し,LNの最適配置と適用について新たな知見を提供する。
関連論文リスト
- The Curse of Depth in Large Language Models [28.37870372690079]
本稿では,最近のLarge Language Models(LLMs)における近年の観察に注目し,説明し,対処する概念であるCurse of Depthを紹介する。
この現象は、Llama、Mistral、DeepSeek、QwenといったLLMの最も人気のあるファミリーにまたがって初めて確認した。
実験の結果, モデルサイズを130Mから1Bに分散したLayerNorm Scalingは, Pre-LNと比較して, LLM事前学習性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-02-09T07:03:36Z) - Mix-LN: Unleashing the Power of Deeper Layers by Combining Pre-LN and Post-LN [19.776151399951672]
Mix-LNは、Pre-LNとPost-LNの強度を同じモデルで組み合わせた新しい正規化手法である。
70Mから7Bまでの様々なモデルサイズの実験では、Mix-LNはPre-LNとPost-LNの両方で一貫して優れていた。
論文 参考訳(メタデータ) (2024-12-18T12:39:53Z) - On the Long Range Abilities of Transformers [69.3021852589771]
トランスアーキテクチャの変更を最小限に抑えることで,Long Range Arenaベンチマークの性能を大幅に向上させることができることを示す。
長距離タスクの2つの鍵となる原理(すなわち、滑らか性に対する帰納的バイアス)と局所性(すなわち、局所性)である。
以下に示すように、これらのアイデアを注意機構に組み込むことで、追加の計算量や追加のトレーニング可能なパラメータなしで結果を改善することができる。
論文 参考訳(メタデータ) (2023-11-28T09:21:48Z) - Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - ResiDual: Transformer with Dual Residual Connections [106.38073506751003]
広く使われている2つの変種は、Post-Layer-Normalization (Post-LN)とPre-Layer-Normalization (Pre-LN)である。
Post-LNは、深層トランスフォーマーのトレーニングを妨げる勾配消滅問題を引き起こし、Pre-LNはモデルキャパシティを制限する表現崩壊問題を引き起こす。
本稿では,PPLN(Pre-Post-LN)を用いた新しいトランスフォーマーアーキテクチャResiDualを提案する。
論文 参考訳(メタデータ) (2023-04-28T12:19:47Z) - Unified Normalization for Accelerating and Stabilizing Transformers [35.07454490355906]
層正規化(LN)は各トークン内のアクティベーションを正規化し、ロバスト性を高める。
LNは推論におけるオンザフライ統計計算と除算および平方根演算を必要とする。
我々は、他の線形演算と融合して推論を高速化するUnified Normalization (UN)を提案する。
論文 参考訳(メタデータ) (2022-08-02T08:41:31Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - B2T Connection: Serving Stability and Performance in Deep Transformers [40.44674210101826]
最近のトランスフォーマーは、ディープトランスフォーマーを備えたPost-LNでは、トレーニングが不安定で、役に立たないモデルになるため、Pre-LNになる傾向にある。
Post-LNは比較的浅いトランスフォーマーにおいて、Pre-LNよりも一貫して優れたパフォーマンスを実現している。
本稿では,Post-LNの簡易な修正により,高い安定性と効果的なトレーニングを両立できる手法を提案する。
論文 参考訳(メタデータ) (2022-06-01T08:43:20Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。