論文の概要: SpanNorm: Reconciling Training Stability and Performance in Deep Transformers
- arxiv url: http://arxiv.org/abs/2601.22580v1
- Date: Fri, 30 Jan 2026 05:21:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.243785
- Title: SpanNorm: Reconciling Training Stability and Performance in Deep Transformers
- Title(参考訳): SpanNorm: 深層変圧器のトレーニング安定性と性能を再構築する
- Authors: Chao Wang, Bei Li, Jiaqi Zhang, Xinyu Liu, Yuchun Fan, Linkun Lyu, Xin Chen, Jingang Wang, Tong Xiao, Peng Pei, Xunliang Cai,
- Abstract要約: 両パラダイムの強度を統合することでジレンマを解消する新しい手法であるSpanNormを提案する。
我々は、SpanNormと原則付きスケーリング戦略を組み合わせることで、ネットワーク全体にわたって有界信号のばらつきを維持できることを理論的に示す。
経験的に、SpanNormは、密集および混成実験(Mixture-of-Experts、MoE)のシナリオにおいて、標準正規化スキームを一貫して上回っている。
- 参考スコア(独自算出の注目度): 55.100133502295996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of Large Language Models (LLMs) hinges on the stable training of deep Transformer architectures. A critical design choice is the placement of normalization layers, leading to a fundamental trade-off: the ``PreNorm'' architecture ensures training stability at the cost of potential performance degradation in deep models, while the ``PostNorm'' architecture offers strong performance but suffers from severe training instability. In this work, we propose SpanNorm, a novel technique designed to resolve this dilemma by integrating the strengths of both paradigms. Structurally, SpanNorm establishes a clean residual connection that spans the entire transformer block to stabilize signal propagation, while employing a PostNorm-style computation that normalizes the aggregated output to enhance model performance. We provide a theoretical analysis demonstrating that SpanNorm, combined with a principled scaling strategy, maintains bounded signal variance throughout the network, preventing the gradient issues that plague PostNorm models, and also alleviating the representation collapse of PreNorm. Empirically, SpanNorm consistently outperforms standard normalization schemes in both dense and Mixture-of-Experts (MoE) scenarios, paving the way for more powerful and stable Transformer architectures.
- Abstract(参考訳): LLM(Large Language Models)の成功は、Deep Transformerアーキテクチャの安定したトレーニングに依存している。
PreNorm''アーキテクチャは、ディープモデルの潜在的なパフォーマンス劣化を犠牲にして、トレーニングの安定性を保証する一方で、 ``PostNorm''アーキテクチャは強力なパフォーマンスを提供するが、厳しいトレーニングの不安定さに悩まされている。
本研究では,両パラダイムの強みを統合することで,このジレンマを解決する新しい手法であるSpanNormを提案する。
構造的には、SpanNormはトランスフォーマーブロック全体にまたがって信号の伝搬を安定化するクリーンな残コネクションを確立し、一方で、集約された出力を正規化してモデル性能を向上させるPostNormスタイルの計算を使用する。
本稿では、SpanNormと原則付きスケーリング戦略を組み合わせることで、ネットワーク全体にわたって有界信号のばらつきを維持し、PostNormモデルを悩ませる勾配問題を回避し、PreNormの表現崩壊を緩和することを示す理論的解析を行う。
経験的に、SpanNormは、より強力で安定したTransformerアーキテクチャを実現するために、密集したMoE(Mixture-of-Experts)シナリオにおいて標準正規化スキームを一貫して上回っている。
関連論文リスト
- A Constrained Optimization Perspective of Unrolled Transformers [77.12297732942095]
我々は、最適化降下アルゴリズムのように振る舞う変圧器の訓練のための制約付き最適化フレームワークを導入する。
拘束型変圧器は摂動の強靭性を実現し,より高い分布分布一般化を維持する。
論文 参考訳(メタデータ) (2026-01-24T02:12:39Z) - Bridging Symmetry and Robustness: On the Role of Equivariance in Enhancing Adversarial Robustness [9.013874391203453]
敵対的な例では、知覚不能な入力摂動に対する感度を利用して、ディープニューラルネットワークの重大な脆弱性を明らかにしている。
本研究では,群-同変畳み込みを組込み,対向ロバスト性に対するアーキテクチャ的アプローチについて検討する。
これらの層は、モデル行動と入力空間の構造化変換を整合させる対称性の先行を符号化し、よりスムーズな決定境界を促進する。
論文 参考訳(メタデータ) (2025-10-17T19:26:58Z) - InvFussion: Bridging Supervised and Zero-shot Diffusion for Inverse Problems [76.39776789410088]
この研究は、教師付きアプローチの強いパフォーマンスとゼロショットメソッドの柔軟性を組み合わせたフレームワークを導入している。
新規なアーキテクチャ設計では、分解演算子を直接デノイザにシームレスに統合する。
FFHQとImageNetデータセットの実験結果は、最先端の後方サンプリング性能を示している。
論文 参考訳(メタデータ) (2025-04-02T12:40:57Z) - Model Hemorrhage and the Robustness Limits of Large Language Models [119.46442117681147]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。
この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文 参考訳(メタデータ) (2025-03-31T10:16:03Z) - HybridNorm: Towards Stable and Efficient Transformer Training via Hybrid Normalization [25.87557024380553]
本稿では,Pre-NormとPost-Normの利点を統合した,シンプルかつ効果的なハイブリッド正規化戦略を提案する。
大規模トランスモデルの実験では、HybridNormはPre-NormとPost-Normの両方のアプローチを一貫して上回っている。
これらの知見は、ディープトランスモデルのトレーニングと性能を改善するためのより安定的で効果的な手法として、HybridNormの可能性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-03-06T16:40:48Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - Stabilizing Equilibrium Models by Jacobian Regularization [151.78151873928027]
ディープ均衡ネットワーク(Deep equilibrium Network, DEQs)は、単一非線形層の固定点を見つけるために従来の深さを推定する新しいモデルのクラスである。
本稿では、平衡モデルの学習を安定させるために、固定点更新方程式のヤコビアンを明示的に正規化するDECモデルの正規化スキームを提案する。
この正規化は計算コストを最小限に抑え、前方と後方の両方の固定点収束を著しく安定化させ、高次元の現実的な領域に順応することを示した。
論文 参考訳(メタデータ) (2021-06-28T00:14:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。