論文の概要: DNT: a Deeply Normalized Transformer that can be trained by Momentum SGD
- arxiv url: http://arxiv.org/abs/2507.17501v1
- Date: Wed, 23 Jul 2025 13:37:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:15.013665
- Title: DNT: a Deeply Normalized Transformer that can be trained by Momentum SGD
- Title(参考訳): DNT:Momentum SGDでトレーニングできるDeeply Normalized Transformer
- Authors: Xianbiao Qi, Marco Chen, Wenjie Xiao, Jiaquan Ye, Yelin He, Chun-Guang Li, Zhouchen Lin,
- Abstract要約: 我々は,バニラmSGDWによるシームレスなトレーニングを実現するために,DNT(Deeply Normalized Transformer)を導入する。
具体的には、DNTにおいて、トランスフォーマーの適切な位置における正規化手法を戦略的に統合し、各層のヤコビ行列を効果的に変調する。
DNTで使用される正規化技術の理論的正当性と、2つの人気のあるTransformerアーキテクチャに対する広範な実証的評価の両方を提供する。
- 参考スコア(独自算出の注目度): 43.19878131775045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have become the de facto backbone of modern deep learning, yet their training typically demands an advanced optimizer with adaptive learning rate like AdamW, rather than a momentum SGDW (mSGDW). Previous works show that it is mainly due to a heavy-tailed distribution of the gradients. In this paper, we introduce a Deeply Normalized Transformer (DNT), which is meticulously engineered to overcome this limitation enabling seamless training with vanilla mSGDW while yielding comparable performance to the Transformers trained via AdamW. To be specific, in DNT, we strategically integrate normalization techniques at proper positions in the Transformers to effectively modulate the Jacobian matrices of each layer, balance the influence of weights, activations, and their interactions, and thus enable the distributions of gradients concentrated. We provide both theoretical justifications of the normalization technique used in our DNT and extensive empirical evaluation on two popular Transformer architectures to validate that: a) DNT outperforms its counterparts (\ie, ViT and GPT), and b) DNT can be effectively trained with vanilla mSGDW.
- Abstract(参考訳): トランスフォーマーは現代のディープラーニングの事実上のバックボーンとなっているが、そのトレーニングは通常、運動量SGDW(mSGDW)ではなく、AdamWのような適応学習率の高度なオプティマイザを必要とする。
それまでの研究では、主に勾配の重みの分布が原因であることが示されている。
本稿では,この制限を克服し,バニラmSGDWによるシームレスなトレーニングを実現するとともに,AdamWを介して訓練されたトランスフォーマーに匹敵する性能を実現するために,Deeply Normalized Transformer (DNT)を提案する。
具体的には、DNTにおいて、トランスフォーマーの適切な位置における正規化手法を戦略的に統合し、各層のヤコビ行列を効果的に調整し、ウェイト、アクティベーション、およびそれらの相互作用の影響をバランスさせ、勾配の分布を集中させる。
DNTで使われる正規化技術の理論的正当性と、2つの人気のあるTransformerアーキテクチャに対する広範な実証的評価の両方を提供します。
a) DNTは、その相手(\ie, ViT, GPT)を上回り、
b) DNTはバニラmSGDWで効果的に訓練することができる。
関連論文リスト
- Transformers without Normalization [58.778767721826206]
トランスフォーマーの正規化レイヤのドロップイン置換として、DyT($x$) = tanh(alpha $x$)$という要素演算式であるDynamic Tanh(DyT)を導入する。
我々は、認識から生成、教師付き学習、教師付き学習、コンピュータビジョンから言語モデルまで、様々な環境において、DyTを用いたトランスフォーマーの有効性を検証する。
論文 参考訳(メタデータ) (2025-03-13T17:59:06Z) - Transformers Learn to Implement Multi-step Gradient Descent with Chain of Thought [46.71030329872635]
Chain of Thought (CoT) のプロンプトにより,大規模言語モデル (LLM) の性能が大幅に向上することが示されている。
線形回帰のための文脈内重み予測タスクにおいて,CoT目標に対する変圧器のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2025-02-28T16:40:38Z) - OT-Transformer: A Continuous-time Transformer Architecture with Optimal Transport Regularization [1.7180235064112577]
制御方程式が変圧器ブロックによってパラメータ化される力学系を考える。
最適輸送理論を利用してトレーニング問題を正規化し、トレーニングの安定性を高め、結果として得られるモデルの一般化を改善する。
論文 参考訳(メタデータ) (2025-01-30T22:52:40Z) - Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文 参考訳(メタデータ) (2024-09-28T13:24:11Z) - A General and Efficient Training for Transformer via Token Expansion [44.002355107931805]
ビジョントランスフォーマー(ViT)は通常、非常に大きなトレーニングコストを必要とする。
既存の手法はViTの訓練を高速化しようと試みているが、通常は精度の低下を伴う手法を無視している。
本稿では,新しいトークン成長スキームであるToken Expansion(ToE)を提案し,ViTに対する一貫したトレーニングアクセラレーションを実現する。
論文 参考訳(メタデータ) (2024-03-31T12:44:24Z) - 2-D SSM: A General Spatial Layer for Visual Transformers [79.4957965474334]
コンピュータビジョンの中心的な目的は、適切な2次元帰納バイアスを持つモデルを設計することである。
多次元状態空間モデルの表現的変動を利用する。
本稿では,効率的なパラメータ化,高速化計算,適切な正規化方式を提案する。
論文 参考訳(メタデータ) (2023-06-11T09:41:37Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。
我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。