論文の概要: Stability of Transformers under Layer Normalization
- arxiv url: http://arxiv.org/abs/2510.09904v1
- Date: Fri, 10 Oct 2025 22:27:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.682925
- Title: Stability of Transformers under Layer Normalization
- Title(参考訳): 層正規化下における変圧器の安定性
- Authors: Kelvin Kan, Xingjian Li, Benjamin J. Zhang, Tuhin Sahai, Stanley Osher, Krishna Kumar, Markos A. Katsoulakis,
- Abstract要約: 異なる層正規化配置下での深部変圧器の安定性について検討した。
我々は、訓練されたトランスフォーマーにおける隠れ状態の成長に明確な境界を導出する。
我々のフレームワークは、新しいアーキテクチャ修正の下でトランスフォーマーの安定性を正当性チェックする原則的な方法を提供する。
- 参考スコア(独自算出の注目度): 7.235320241343618
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their widespread use, training deep Transformers can be unstable. Layer normalization, a standard component, improves training stability, but its placement has often been ad-hoc. In this paper, we conduct a principled study on the forward (hidden states) and backward (gradient) stability of Transformers under different layer normalization placements. Our theory provides key insights into the training dynamics: whether training drives Transformers toward regular solutions or pathological behaviors. For forward stability, we derive explicit bounds on the growth of hidden states in trained Transformers. For backward stability, we analyze how layer normalization affects the backpropagation of gradients, thereby explaining the training dynamics of each layer normalization placement. Our analysis also guides the scaling of residual steps in Transformer blocks, where appropriate choices can further improve stability and performance. Our numerical results corroborate our theoretical findings. Beyond these results, our framework provides a principled way to sanity-check the stability of Transformers under new architectural modifications, offering guidance for future designs.
- Abstract(参考訳): 広く使われているにもかかわらず、ディープトランスフォーマーのトレーニングは不安定である。
標準コンポーネントであるレイヤ正規化は、トレーニングの安定性を向上させるが、その配置はしばしばアドホックである。
本稿では,異なる層正規化配置下での変圧器の前方(隠蔽状態)と後方(緩やかな)安定性について,原理的な研究を行う。
トレーニングがトランスフォーマーを通常のソリューションに向かわせるのか、あるいは病理学的行動に向かわせるのか。
前方安定のために、訓練されたトランスフォーマーにおける隠れ状態の成長に明確な境界を導出する。
後方安定のために,各層正規化配置のトレーニング力学を説明することによって,層正規化が勾配の後方伝播にどう影響するかを解析する。
我々の分析はトランスフォーマーブロックの残留ステップのスケーリングもガイドしており、適切な選択によって安定性と性能がさらに向上する。
我々の数値結果は我々の理論的な結果を裏付ける。
これらの結果の他に、我々のフレームワークはトランスフォーマーの安定性を新しいアーキテクチャで検証する原則的な方法を提供し、将来の設計のガイダンスを提供する。
関連論文リスト
- OT-Transformer: A Continuous-time Transformer Architecture with Optimal Transport Regularization [1.7180235064112577]
制御方程式が変圧器ブロックによってパラメータ化される力学系を考える。
最適輸送理論を利用してトレーニング問題を正規化し、トレーニングの安定性を高め、結果として得られるモデルの一般化を改善する。
論文 参考訳(メタデータ) (2025-01-30T22:52:40Z) - Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文 参考訳(メタデータ) (2024-09-28T13:24:11Z) - BranchNorm: Robustly Scaling Extremely Deep Transformers [55.92852268168816]
BranchNormはトレーニング期間に応じてTransformerの非残留ブランチを動的に再スケールする。
複数の翻訳タスクの実験結果から、BranchNormはトレーニングの安定性と収束性能のトレードオフを向上することが示された。
論文 参考訳(メタデータ) (2023-05-04T12:46:12Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。
我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:07Z) - On Layer Normalization in the Transformer Architecture [112.40350994368741]
まず,学習速度のウォームアップが重要である理由を理論的に検討し,レイヤー正規化の位置が重要であることを示す。
ウォームアップステージのないPre-LNトランスフォーマーはベースラインと同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-12T00:33:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。