論文の概要: EMA-Nesterov: Stabilizing Nesterov's Lookahead for Accelerated Deep Learning Optimization
- arxiv url: http://arxiv.org/abs/2605.25395v1
- Date: Mon, 25 May 2026 03:39:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.275362
- Title: EMA-Nesterov: Stabilizing Nesterov's Lookahead for Accelerated Deep Learning Optimization
- Title(参考訳): EMA-Nesterov: ディープラーニング最適化のためのNesterovのルックアヘッドの安定化
- Authors: Chung-Yiu Yau, Dawei Li, Athanasios Glentis, Valentyn Boreiko, Hoi-To Wai, Mingyi Hong,
- Abstract要約: 標準ネステロフを指数移動平均(EMA)で置き換える簡単な修正であるEMA-Nesterovを提案する。
言語モデル事前学習に関する実証的証拠を提示し、EMA-ネステロフが様々な微調整ベースで広く適用可能であることを検証する。
- 参考スコア(独自算出の注目度): 29.89435961169451
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lookahead-based acceleration methods, such as Nesterov's momentum, are widely used in optimization, but they often become unreliable in deep learning training mainly due to stochastic gradient noise and non-convex loss landscapes. In particular, standard lookahead relies on short-horizon update signals (e.g., differences between consecutive iterates), which are inherently noisy and can lead to unstable extrapolation directions. This work revisits Nesterov's acceleration from a trajectory perspective and argues that effective acceleration in deep learning should harness the low-frequency trends of optimization trajectories rather than extrapolating noisy one-step updates. Leveraging this insight, we propose EMA-Nesterov, a simple modification that replaces the standard Nesterov's lookahead direction with an exponential moving average (EMA) of parameter updates. This yields a stabilized lookahead direction that captures and harnesses the evolving trend of the training trajectory through a low-pass filter, while remaining adaptive to progressive changes via the geometric weighting structure of EMA. We show that EMA-Nesterov retains a theoretical accelerated convergence rate in convex problems that is analogous to Nesterov's accelerated gradient method. Furthermore, we provide empirical evidence on language model pre-training to verify that EMA-Nesterov is broadly applicable across a range of fine-tuned base optimizers, including Adam, SOAP, Muon, as well as complex optimizers that achieve state-of-the-art performance on optimization benchmarks (NanoGPT). Compared to prior lookahead methods, EMA-Nesterov achieves better performance by avoiding the instability of short-horizon lookahead and the non-adaptivity of long-horizon lookahead.
- Abstract(参考訳): ネステロフの運動量のようなルックアヘッドに基づく加速度法は最適化に広く用いられているが、確率的勾配雑音や非凸損失景観による深層学習では信頼性が低いことが多い。
特に、標準的なルックアヘッドは短い水平更新信号(例えば、連続するイテレートの違いなど)に依存しており、本質的にノイズがあり不安定な外挿方向につながる可能性がある。
この研究は、ネステロフの加速を軌跡の観点から再考し、ディープラーニングにおける効果的な加速は、ノイズの多い一段階の更新を外挿するのではなく、最適化軌道の低周波トレンドを利用するべきであると主張している。
この知見を活かしたEMA-Nesterovは,標準のNesterovのルックアヘッド方向をパラメータ更新の指数移動平均(EMA)に置き換えるシンプルな修正である。
これは、EMAの幾何重み付け構造による進行変化に適応しながら、ローパスフィルタを通してトレーニング軌道の進化傾向を捉え、活用する安定したルックアヘッド方向を与える。
我々は、EMA-ネステロフが、ネステロフの加速勾配法に類似した凸問題において理論的に加速収束速度を維持していることを示す。
さらに、EMA-NesterovがAdam、SOAP、Muonなどの細調整されたベースオプティマイザや、最適化ベンチマーク(NanoGPT)で最先端のパフォーマンスを達成する複雑なオプティマイザに広く適用可能であることを検証するために、言語モデルの事前トレーニングに関する実証的な証拠を提供する。
従来のルックアヘッド法と比較して、EMA-ネステロフは、短水平ルックアヘッドの不安定性と長水平ルックアヘッドの非適応性を回避し、より良い性能を達成する。
関連論文リスト
- Self-Distilled Trajectory-Aware Boltzmann Modeling: Bridging the Training-Inference Discrepancy in Diffusion Language Models [65.89572755202245]
拡散言語モデル(DLM)は、より強力なグローバル認識と高い並列生成を提供する。
標準負のエビデンス下界(NELBO)に基づく教師付き微調整後のDLMは非効率である。
そこで本研究では,学習を推論の容易かつハードな構造に整合させる,自己蒸留軌道に基づくポストトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-12T09:39:06Z) - Dynamic Momentum Recalibration in Online Gradient Learning [6.6375578955686345]
Gradient Descent(SGD)とその運動量変化は、ディープラーニング最適化のバックボーンを形成する。
本研究では信号処理のレンズを通して勾配の更新を再解釈し、固定運動量係数が本質的にバイアスと分散のバランスを歪め、歪んだあるいは最適以下のパラメータの更新をもたらすことを明らかにする。
SGDF(SGD with Filter)を提案する。
論文 参考訳(メタデータ) (2026-03-06T10:23:40Z) - Hindsight-Guided Momentum (HGM) Optimizer: An Approach to Adaptive Learning Rate [0.0]
直近のアップデートに基づいて学習率を適応的にスケールする一階最適化アルゴリズムであるHindsight-Guided Momentumを導入する。
HGMは、コヒーレントな方向と矛盾する方向の学習速度を加速する後向きのメカニズムによってこの問題に対処する。
論文 参考訳(メタデータ) (2025-06-22T08:02:19Z) - Nesterov Method for Asynchronous Pipeline Parallel Optimization [59.79227116582264]
パイプライン並列処理における非同期最適化のために,Nesterov Accelerated Gradient (NAG) の変種を導入する。
具体的には、NAGのルックアヘッドステップを変更して、勾配の安定性を効果的に解決する。
我々は、勾配の固定遅延の存在下で、我々のアプローチがサブ線形速度で収束することを理論的に証明する。
論文 参考訳(メタデータ) (2025-05-02T08:23:29Z) - Signal Processing Meets SGD: From Momentum to Filter [6.751292200515355]
ディープラーニングでは、勾配降下(SGD)とその運動量に基づく変種が最適化に広く利用されている。
本稿では,信号処理レンズを用いて勾配挙動を解析し,更新に影響を与える重要な要因を分離する。
本稿では,ワイナーフィルタの原理に基づく新しいSGDF手法を提案する。
論文 参考訳(メタデータ) (2023-11-06T01:41:46Z) - Score-Guided Intermediate Layer Optimization: Fast Langevin Mixing for
Inverse Problem [97.64313409741614]
ランダム重み付きDNNジェネレータを反転させるため,Langevinアルゴリズムの定常分布を高速に混合し,特徴付ける。
本稿では,事前学習した生成モデルの潜時空間における後部サンプリングを提案する。
論文 参考訳(メタデータ) (2022-06-18T03:47:37Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。