論文の概要: Post-LayerNorm Is Back: Stable, ExpressivE, and Deep
- arxiv url: http://arxiv.org/abs/2601.19895v2
- Date: Fri, 30 Jan 2026 03:44:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 14:22:45.22131
- Title: Post-LayerNorm Is Back: Stable, ExpressivE, and Deep
- Title(参考訳): Post-LayerNormが復活:安定版、ExpressivE、ディープ
- Authors: Chen Chen, Lai Wei,
- Abstract要約: 大規模言語モデル(LLM)のスケーリングは壁にぶつかっている。拡張モデルはリターンを減少させ、コンテキスト長の延長は基本的な表現性を改善しない。
ポストレイヤーノーム (Post-LayerNorm, Post-LN) の定式化について検討した。
本稿では,Post-LNの中央障害モードがResNetスタイルの残差経路から生じることを示す。
我々は、この残路をハイウェイスタイルの接続で置き換えるポストLN変換器であるKeelを提示する。
- 参考スコア(独自算出の注目度): 6.007650558372649
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) scaling is hitting a wall. Widening models yields diminishing returns, and extending context length does not improve fundamental expressivity. In contrast, depth scaling offers theoretically superior expressivity, yet current Transformer architectures struggle to train reliably at extreme depths. We revisit the Post-LayerNorm (Post-LN) formulation, whose instability at scale caused its replacement by Pre-LN in modern LLMs. We show that the central failure mode of Post-LN arises from the ResNet-style residual pathway, which introduces gradient vanishing in deep networks. We present Keel, a Post-LN Transformer that replaces this residual path with a Highway-style connection. This modification preserves the gradient flow through the residual branch, preventing signal vanishing from the top layers to the bottom. Unlike prior methods, Keel enables stable training at extreme depths without requiring specialized initialization or complex optimization tricks. Keel trains robustly at depths exceeding 1000 layers and consistently improves perplexity and depth-scaling characteristics over Pre-LN. These findings indicate that Post-LN, when paired with a Highway-style connection, provides a simple and effective foundation for building deeply scalable LLMs, opening the possibility for future infinite-depth architectures.
- Abstract(参考訳): 大規模言語モデル(LLM)のスケーリングが壁にぶつかっています。
拡大モデルではリターンが減少し、コンテキスト長が拡張しても基本的な表現性は向上しない。
対照的に、深度スケーリングは理論的に優れた表現性を提供するが、現在のトランスフォーマーアーキテクチャは極度に深度で確実に訓練するのに苦労している。
ポストレイヤーノーム (Post-LayerNorm, Post-LN) の定式化について検討した。
本稿では,Post-LNの中央障害モードがResNetスタイルの残差経路から生じることを示す。
我々は、この残路をハイウェイスタイルの接続で置き換えるポストLN変換器であるKeelを提示する。
この修正は、残留枝を通る勾配の流れを保ち、上層から下層への信号が消滅するのを防ぐ。
従来の手法とは異なり、Keelは特別な初期化や複雑な最適化のトリックを必要とせず、極深度で安定した訓練を可能にする。
キール列車は1000層を超える深さで頑丈に走行し、プレLN上でのパープレキシティと深度スケーリング特性を一貫して改善する。
これらの結果は、Post-LNがハイウェイスタイルの接続と組み合わせることで、深くスケーラブルなLCMを構築するためのシンプルで効果的な基盤を提供し、将来の無限深度アーキテクチャの可能性を開くことを示唆している。
関連論文リスト
- Unleashing Degradation-Carrying Features in Symmetric U-Net: Simpler and Stronger Baselines for All-in-One Image Restoration [52.82397287366076]
オールインワン画像復元は、統合された枠組み内で様々な劣化(ノイズ、ぼかし、悪天候など)を扱うことを目的としている。
本研究では, 優れた特徴抽出法により, 劣化伝達情報を本質的にエンコードする, 重要な知見を明らかにする。
我々の対称設計は固有の劣化信号を頑健に保存し、スキップ接続に単純な加法融合を施す。
論文 参考訳(メタデータ) (2025-12-11T12:20:31Z) - GPAS: Accelerating Convergence of LLM Pretraining via Gradient-Preserving Activation Scaling [39.3376897081385]
既存の手法と組み合わせて使用可能なGPAS(Gradient-Preserving Activation Scaling)を提案する。
GPASは、その勾配を一定に保ちながら中間活性化をスケールダウンすることで機能する。
モデルサイズが71Mから1Bの範囲で実験した結果,GPASが一貫した性能向上を達成できた。
論文 参考訳(メタデータ) (2025-06-27T09:45:15Z) - The Curse of Depth in Large Language Models [28.37870372690079]
大きな言語モデルでは、約半数のレイヤが予想よりも効果が低い。
層ノルムスケーリング(LNS)は、層正規化の出力の分散を、その深さの平方根によって逆向きにスケールする。
LNSは、LLM事前学習性能の向上において、従来の正規化およびスケーリング技術よりも一貫して優れている。
論文 参考訳(メタデータ) (2025-02-09T07:03:36Z) - Peri-LN: Revisiting Normalization Layer in the Transformer Architecture [57.08322913112157]
Pre-LNとPost-LNは、大規模なトレーニングの制限にもかかわらず、長年にわたってプラクティスを支配してきた。
最近、いくつかのオープンソースモデルが静かに第3の戦略を採用し始めた。
Peri-LNは、よりバランスの取れた分散成長、より安定な勾配流、収束安定性を実現する。
論文 参考訳(メタデータ) (2025-02-04T21:29:47Z) - Accelerated Training through Iterative Gradient Propagation Along the Residual Path [46.577761606415805]
ハイウェイバックプロパゲーションは、バックプロパゲーションを近似する並列化可能な反復アルゴリズムである。
ResNetやTransformerから、リカレントニューラルネットワークまで、さまざまな共通アーキテクチャセットに適応可能である。
論文 参考訳(メタデータ) (2025-01-28T17:14:42Z) - ResiDual: Transformer with Dual Residual Connections [106.38073506751003]
広く使われている2つの変種は、Post-Layer-Normalization (Post-LN)とPre-Layer-Normalization (Pre-LN)である。
Post-LNは、深層トランスフォーマーのトレーニングを妨げる勾配消滅問題を引き起こし、Pre-LNはモデルキャパシティを制限する表現崩壊問題を引き起こす。
本稿では,PPLN(Pre-Post-LN)を用いた新しいトランスフォーマーアーキテクチャResiDualを提案する。
論文 参考訳(メタデータ) (2023-04-28T12:19:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。