論文の概要: Post-LayerNorm Is Back: Stable, ExpressivE, and Deep
- arxiv url: http://arxiv.org/abs/2601.19895v2
- Date: Fri, 30 Jan 2026 03:44:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 14:22:45.22131
- Title: Post-LayerNorm Is Back: Stable, ExpressivE, and Deep
- Title(参考訳): Post-LayerNormが復活:安定版、ExpressivE、ディープ
- Authors: Chen Chen, Lai Wei,
- Abstract要約: 大規模言語モデル(LLM)のスケーリングは壁にぶつかっている。拡張モデルはリターンを減少させ、コンテキスト長の延長は基本的な表現性を改善しない。
ポストレイヤーノーム (Post-LayerNorm, Post-LN) の定式化について検討した。
本稿では,Post-LNの中央障害モードがResNetスタイルの残差経路から生じることを示す。
我々は、この残路をハイウェイスタイルの接続で置き換えるポストLN変換器であるKeelを提示する。
- 参考スコア(独自算出の注目度): 6.007650558372649
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) scaling is hitting a wall. Widening models yields diminishing returns, and extending context length does not improve fundamental expressivity. In contrast, depth scaling offers theoretically superior expressivity, yet current Transformer architectures struggle to train reliably at extreme depths. We revisit the Post-LayerNorm (Post-LN) formulation, whose instability at scale caused its replacement by Pre-LN in modern LLMs. We show that the central failure mode of Post-LN arises from the ResNet-style residual pathway, which introduces gradient vanishing in deep networks. We present Keel, a Post-LN Transformer that replaces this residual path with a Highway-style connection. This modification preserves the gradient flow through the residual branch, preventing signal vanishing from the top layers to the bottom. Unlike prior methods, Keel enables stable training at extreme depths without requiring specialized initialization or complex optimization tricks. Keel trains robustly at depths exceeding 1000 layers and consistently improves perplexity and depth-scaling characteristics over Pre-LN. These findings indicate that Post-LN, when paired with a Highway-style connection, provides a simple and effective foundation for building deeply scalable LLMs, opening the possibility for future infinite-depth architectures.
- Abstract(参考訳): 大規模言語モデル(LLM)のスケーリングが壁にぶつかっています。
拡大モデルではリターンが減少し、コンテキスト長が拡張しても基本的な表現性は向上しない。
対照的に、深度スケーリングは理論的に優れた表現性を提供するが、現在のトランスフォーマーアーキテクチャは極度に深度で確実に訓練するのに苦労している。
ポストレイヤーノーム (Post-LayerNorm, Post-LN) の定式化について検討した。
本稿では,Post-LNの中央障害モードがResNetスタイルの残差経路から生じることを示す。
我々は、この残路をハイウェイスタイルの接続で置き換えるポストLN変換器であるKeelを提示する。
この修正は、残留枝を通る勾配の流れを保ち、上層から下層への信号が消滅するのを防ぐ。
従来の手法とは異なり、Keelは特別な初期化や複雑な最適化のトリックを必要とせず、極深度で安定した訓練を可能にする。
キール列車は1000層を超える深さで頑丈に走行し、プレLN上でのパープレキシティと深度スケーリング特性を一貫して改善する。
これらの結果は、Post-LNがハイウェイスタイルの接続と組み合わせることで、深くスケーラブルなLCMを構築するためのシンプルで効果的な基盤を提供し、将来の無限深度アーキテクチャの可能性を開くことを示唆している。
関連論文リスト
- SpanNorm: Reconciling Training Stability and Performance in Deep Transformers [55.100133502295996]
両パラダイムの強度を統合することでジレンマを解消する新しい手法であるSpanNormを提案する。
我々は、SpanNormと原則付きスケーリング戦略を組み合わせることで、ネットワーク全体にわたって有界信号のばらつきを維持できることを理論的に示す。
経験的に、SpanNormは、密集および混成実験(Mixture-of-Experts、MoE)のシナリオにおいて、標準正規化スキームを一貫して上回っている。
論文 参考訳(メタデータ) (2026-01-30T05:21:57Z) - Understanding Scaling Laws in Deep Neural Networks via Feature Learning Dynamics [9.885471525709113]
スケーリング法則は、成功とはどのようなもので、いつ、なぜスケーリングが成功するか、失敗なのかを記述している。
中心的な障害は、大きな深さで特徴学習の厳密な理解が欠如していることである。
論文 参考訳(メタデータ) (2025-12-24T09:39:04Z) - Unleashing Degradation-Carrying Features in Symmetric U-Net: Simpler and Stronger Baselines for All-in-One Image Restoration [52.82397287366076]
オールインワン画像復元は、統合された枠組み内で様々な劣化(ノイズ、ぼかし、悪天候など)を扱うことを目的としている。
本研究では, 優れた特徴抽出法により, 劣化伝達情報を本質的にエンコードする, 重要な知見を明らかにする。
我々の対称設計は固有の劣化信号を頑健に保存し、スキップ接続に単純な加法融合を施す。
論文 参考訳(メタデータ) (2025-12-11T12:20:31Z) - GPAS: Accelerating Convergence of LLM Pretraining via Gradient-Preserving Activation Scaling [39.3376897081385]
既存の手法と組み合わせて使用可能なGPAS(Gradient-Preserving Activation Scaling)を提案する。
GPASは、その勾配を一定に保ちながら中間活性化をスケールダウンすることで機能する。
モデルサイズが71Mから1Bの範囲で実験した結果,GPASが一貫した性能向上を達成できた。
論文 参考訳(メタデータ) (2025-06-27T09:45:15Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - The Curse of Depth in Large Language Models [28.37870372690079]
大きな言語モデルでは、約半数のレイヤが予想よりも効果が低い。
層ノルムスケーリング(LNS)は、層正規化の出力の分散を、その深さの平方根によって逆向きにスケールする。
LNSは、LLM事前学習性能の向上において、従来の正規化およびスケーリング技術よりも一貫して優れている。
論文 参考訳(メタデータ) (2025-02-09T07:03:36Z) - Peri-LN: Revisiting Normalization Layer in the Transformer Architecture [57.08322913112157]
Pre-LNとPost-LNは、大規模なトレーニングの制限にもかかわらず、長年にわたってプラクティスを支配してきた。
最近、いくつかのオープンソースモデルが静かに第3の戦略を採用し始めた。
Peri-LNは、よりバランスの取れた分散成長、より安定な勾配流、収束安定性を実現する。
論文 参考訳(メタデータ) (2025-02-04T21:29:47Z) - Accelerated Training through Iterative Gradient Propagation Along the Residual Path [46.577761606415805]
ハイウェイバックプロパゲーションは、バックプロパゲーションを近似する並列化可能な反復アルゴリズムである。
ResNetやTransformerから、リカレントニューラルネットワークまで、さまざまな共通アーキテクチャセットに適応可能である。
論文 参考訳(メタデータ) (2025-01-28T17:14:42Z) - Understanding the training of infinitely deep and wide ResNets with Conditional Optimal Transport [26.47265060394168]
深部ニューラルネットワークの勾配流は遠距離で任意に収束することを示す。
これは空間における有限幅の勾配距離の理論に依存する。
論文 参考訳(メタデータ) (2024-03-19T16:34:31Z) - ResiDual: Transformer with Dual Residual Connections [106.38073506751003]
広く使われている2つの変種は、Post-Layer-Normalization (Post-LN)とPre-Layer-Normalization (Pre-LN)である。
Post-LNは、深層トランスフォーマーのトレーニングを妨げる勾配消滅問題を引き起こし、Pre-LNはモデルキャパシティを制限する表現崩壊問題を引き起こす。
本稿では,PPLN(Pre-Post-LN)を用いた新しいトランスフォーマーアーキテクチャResiDualを提案する。
論文 参考訳(メタデータ) (2023-04-28T12:19:47Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。