論文の概要: SoftSignSGD(S3): An Enhanced Optimizer for Practical DNN Training and Loss Spikes Minimization Beyond Adam
- arxiv url: http://arxiv.org/abs/2507.06464v1
- Date: Wed, 09 Jul 2025 00:47:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.428755
- Title: SoftSignSGD(S3): An Enhanced Optimizer for Practical DNN Training and Loss Spikes Minimization Beyond Adam
- Title(参考訳): SoftSignSGD(S3):Adam以外のDNNトレーニングとロススパイクス最小化のための拡張最適化
- Authors: Hanyang Peng, Shuang Qin, Yue Yu, Fangqing Jiang, Hui Wang, Wen Gao,
- Abstract要約: Adam氏は、ディープニューラルネットワークのトレーニングに成功しているが、その成功と限界のメカニズムは未解明のままである。
本研究では,Adamの有効性は,安定な変動変動におけるSignSGDとの類似性に大きく起因していることを示す。
我々は,Nesterovの加速勾配(NAG)モジュールをS3に組み込んだ$emphThirdを提案する。
- 参考スコア(独自算出の注目度): 28.46753383125989
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adam has proven remarkable successful in training deep neural networks, but the mechanisms underlying its empirical successes and limitations remain underexplored. In this study, we demonstrate that the effectiveness of Adam stems largely from its similarity to SignSGD in robustly handling large gradient fluctuations, yet it is also vulnerable to destabilizing loss spikes due to its uncontrolled update scaling. To enhance the advantage of Adam and mitigate its limitation, we propose SignSoftSGD (S3), a novel optimizer with three key innovations. \emph{First}, S3 generalizes the sign-like update by employing a flexible $p$-th order momentum ($p \geq 1$) in the denominator, departing from the conventional second-order momentum (variance) preconditioning. This design enables enhanced performance while achieving stable training even with aggressive learning rates. \emph{Second}, S3 minimizes the occurrences of loss spikes through unified exponential moving average coefficients for numerator and denominator momenta, which inherently bound updates to $[-1, 1]$ and simplify hyperparameter tuning. \emph{Third}, S3 incorporates an equivalent Nesterov's accelerated gradient(NAG) module, accelerating convergence without memory overhead. Theoretically, we prove that S3 achieves the optimal convergence rate of $O\left(\frac{1}{T^{\sfrac{1}{4}}}\right)$ for general nonconvex stochastic optimization under weak assumptions. Extensive experiments across a range of vision and language tasks show that \textsf{\small S3} not only converges more rapidly and improves performance but also rarely experiences loss spikes, even with a \textbf{$\bm{10 \times}$} larger learning rate. In fact, S3 delivers performance comparable to or better than AdamW with \textbf{$2 \times$} the training steps, establishing its efficacy in both efficiency and final task performance.
- Abstract(参考訳): アダムはディープニューラルネットワークのトレーニングで顕著に成功したが、その経験的成功と限界の基礎となるメカニズムは未解明のままである。
本研究では,Adamの有効性は,大規模な勾配変動に頑健に対処する上でSignSGDとの類似性に大きく起因しているが,非制御更新スケーリングによる損失スパイクの安定化にも脆弱であることを示す。
本稿では,Adamの優位性を高め,その限界を緩和するために,3つの重要なイノベーションを持つ新しいオプティマイザであるSignSoftSGD(S3)を提案する。
S3 は、フレキシブルな$p$-次運動量 (p \geq 1$) を分母に用いて、従来の二階運動量(分散)プリコンディショニングから逸脱することで、サインライクな更新を一般化する。
この設計により、アグレッシブな学習率でも安定したトレーニングを達成しつつ、パフォーマンスを向上させることができる。
S3 は numerator と denominator momenta の指数的移動平均係数を統一することにより損失スパイクの発生を最小化し、本質的には $[-1, 1]$ に更新をバインドし、ハイパーパラメータチューニングを単純化する。
S3は同等のNesterovの加速勾配(NAG)モジュールを組み込んでおり、メモリオーバーヘッドなしに収束を加速している。
理論的には、S3 が弱仮定の下での一般非凸確率最適化に対して$O\left(\frac{1}{T^{\sfrac{1}{4}}}\right)$の最適収束率を達成することを証明している。
様々な視覚と言語タスクにわたる広範な実験により、 \textsf{\small S3} はより早く収束し、性能を改善し、また、より大きな学習率の \textbf{$\bm{10 \times}$} であっても、損失スパイクを経験することは滅多にない。
実際、S3はAdamWに匹敵するパフォーマンスを提供しており、トレーニングステップは \textbf{$2 \times$} で、その効率性と最終的なタスクパフォーマンスの両面で有効性を確立している。
関連論文リスト
- Non-stationary Online Learning for Curved Losses: Improved Dynamic Regret via Mixability [65.99855403424979]
混合可能性の概念を活用することで、動的後悔を著しく改善できることを示す。
固定共有更新を持つ指数重み付け法は,混合損失に対して$mathcalO(d T2/3 P_T2/3 log T)$ dynamic regretを達成できることを示す。
論文 参考訳(メタデータ) (2025-06-12T12:00:08Z) - VAMO: Efficient Large-Scale Nonconvex Optimization via Adaptive Zeroth Order Variance Reduction [3.130722489512822]
VAMOは、ZOGスタイルのフレームワークの下で、FOミニバッチ勾配とZO有限差分プローブを組み合わせる。
VAMOはFO法やZO法よりも優れており、効率を向上させるためにより高速で柔軟な選択肢を提供する。
論文 参考訳(メタデータ) (2025-05-20T05:31:15Z) - Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [64.62231094774211]
ステートフル(例えばアダム)は、最適収束を達成するために、モデルサイズを2倍も補助情報を維持する。
SOLOにより、アダムスタイルは3ビットまたは2ビットの精度で量子化された状態を維持することができる。
したがって、SOLOはAdamスタイルにシームレスに適用でき、精度の低下を最小限に抑えることができる。
論文 参考訳(メタデータ) (2025-05-01T06:47:45Z) - Second-order Optimization of Gaussian Splats with Importance Sampling [51.95046424364725]
3D Gaussian Splatting (3DGS) は、高品質で高速な推論時間のため、新しいビューレンダリングに広く用いられている。
本稿では,Levenberg-Marquardt (LM) と Conjugate Gradient (CG) に基づく新しい2階最適化手法を提案する。
提案手法は標準LMよりも3倍の高速化を実現し,ガウス数が少ない場合のAdamを6倍の6倍の速さで上回る。
論文 参考訳(メタデータ) (2025-04-17T12:52:08Z) - TeZO: Empowering the Low-Rankness on the Temporal Dimension in the Zeroth-Order Optimization for Fine-tuning LLMs [58.19080159470868]
モデルと時間次元の両方にわたって低ランク度をキャプチャする新しい低ランクZO推定器TeZOを提案する。
具体的には、時間次元に沿ったZO摂動を3次元テンソルとして表現し、Canonical Polyadic Decomposition (CPD)を用いて各低ランク2次元行列を抽出する。
論文 参考訳(メタデータ) (2025-01-31T11:34:03Z) - Taming 3DGS: High-Quality Radiance Fields with Limited Resources [50.92437599516609]
3D Gaussian Splatting (3DGS)は、高速で解釈可能で高忠実なレンダリングで新規ビュー合成を変換した。
予算で3DGSモデルをトレーニングし、レンダリングするという課題に取り組みます。
我々は、勾配計算と属性更新のための高速で数値的に等価な解を導出する。
論文 参考訳(メタデータ) (2024-06-21T20:44:23Z) - Flatter, faster: scaling momentum for optimal speedup of SGD [0.0]
ニューラルネットワークのトレーニングにおいて、勾配降下(SGD)とラベルノイズと運動量との相互作用から生じるトレーニングダイナミクスについて検討した。
運動量ハイパーパラメータ1-NISTbeta$を学習率で2/3$にスケーリングすると、一般化を犠牲にすることなく、最大で2/3$のトレーニングが加速することがわかった。
論文 参考訳(メタデータ) (2022-10-28T20:41:48Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Towards Noise-adaptive, Problem-adaptive Stochastic Gradient Descent [7.176107039687231]
雑音に対して勾配降下(SGD)を適応させるステップサイズスキームを設計する。
我々は、Nesterov反復によるSGDの$T$反復がほぼ最適であることを示す。
他のステップサイズスキームと比較して、新しい指数的なステップサイズスキームの有効性を実証する。
論文 参考訳(メタデータ) (2021-10-21T19:22:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。