論文の概要: SNOO: Step-K Nesterov Outer Optimizer - The Surprising Effectiveness of Nesterov Momentum Applied to Pseudo-Gradients
- arxiv url: http://arxiv.org/abs/2510.15830v1
- Date: Fri, 17 Oct 2025 17:11:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.723649
- Title: SNOO: Step-K Nesterov Outer Optimizer - The Surprising Effectiveness of Nesterov Momentum Applied to Pseudo-Gradients
- Title(参考訳): SNOO: Step-K Nesterov Outer Optimizer - 擬似勾配へのNesterov Momentumの適用について
- Authors: Dominik Kallusky, Vinay Rao, Vishal Nandavanam, Hao-Jun Michael Shi,
- Abstract要約: DiLoCoはもともと分散トレーニング用に設計された有名な例だが、Nesterovのモーメントを複数のワーカーの平均的な擬似勾配に適用している。
DiLoCoの驚くべき効果は、主に非分散環境での擬勾配にネステロフ運動量を適用することに起因していることを示す。
最小限の計算とメモリオーバーヘッドとモデリングとの互換性のため、SNOOはAdamWやMuonなど、様々なインナーの実用的な拡張である。
- 参考スコア(独自算出の注目度): 0.21056212639738645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid development of large language models (LLMs) has driven the demand for more efficient optimization techniques. Among these, the Lookahead family of optimizers employs a two-loop framework, maintaining fast and slow sets of model weights. Multiple inner optimizer steps on the fast weights produce a trajectory - the pseudo-gradient - that is used to update the slow weights. DiLoCo, a notable example originally designed for distributed training, applies Nesterov momentum to the averaged pseudo-gradient from multiple workers, claiming to even outperform AdamW in a non-distributed setup. In this paper, we empirically show that DiLoCo's surprising effectiveness stems primarily from applying Nesterov momentum to the pseudo-gradient, which improves training in a non-distributed setting. We call this Lookahead variant the Step-$K$ Nesterov Outer Optimizer (SNOO). We demonstrate that SNOO achieves compute factor gains of 1.5 - 2.5$\times$ in a non-distributed setting up to a scale of 1e23 training FLOPs, with improvements that increase with model size. Because of its minimal compute and memory overhead and compatibility with model sharding, SNOO is a practical enhancement for a variety of inner optimizers, including AdamW and Muon.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な開発により、より効率的な最適化技術への需要が高まった。
このうち、Lookaheadファミリーは2ループのフレームワークを採用しており、高速で遅いモデルの重みを維持できる。
高速ウェイト上の複数の内部オプティマイザステップは、遅いウェイトを更新するために使用される軌道(擬勾配)を生成する。
DiLoCoはもともと分散トレーニング用に設計された有名な例だが、Nesterovのモーメントを複数のワーカーからの平均的な擬似勾配に適用し、非分散セットアップでAdamWよりも優れていると主張している。
本稿では,DiLoCoの驚くべき有効性は,主にNesterov運動量を適用して,非分散環境でのトレーニングを改善することに起因することを実証的に示す。
Lookahead は Step-$K$ Nesterov Outer Optimizer (SNOO) と呼ばれる。
我々はSNOOが1.5~2.5$\times$の計算係数ゲインを1e23トレーニングFLOPのスケールで非分散設定で達成し、モデルサイズが向上することを示す。
最小限の計算とメモリオーバーヘッドとモデルシャーディングとの互換性のため、SNOOはAdamWやMuonなど、様々な内部オプティマイザの実用的な拡張である。
関連論文リスト
- CAST: Continuous and Differentiable Semi-Structured Sparsity-Aware Training for Large Language Models [27.682531424487564]
スパシティアウェアトレーニングは、大きな言語モデルをハードウェアフレンドリーなスパースパターンに変換するための効果的なアプローチである。
スパースモデルのための連続的かつ微分可能なスパース対応トレーニングフレームワークであるContinuous Adaptive Sparse Trainer (CAST)を提案する。
以上の結果から,従来の最先端手法に比べて,トレーニングリソースの最小化による難易度とゼロショット精度の両面で有意な改善が見られた。
論文 参考訳(メタデータ) (2025-09-30T09:28:47Z) - Slice-Wise Initial State Optimization to Improve Cost and Accuracy of the VQE on Lattice Models [0.0]
本稿では,適応型および物理インスピレーション型アンザッツ設計を組み合わせた変分量子固有解器(VQE)の最適化手法を提案する。
この準力学的アプローチは、演算子選択のオーバーヘッドを回避しつつ、表現性とハードウェア効率を保っている。
最大20キュービットの1次元および2次元ハイゼンベルクおよびハバードモデルのベンチマークでは、固定層VQEと比較して、忠実度の改善、機能評価の削減、あるいはその両方が示されている。
論文 参考訳(メタデータ) (2025-09-16T12:52:23Z) - MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.67982828148859]
深層ニューラルネットワークのための統合トレーニングフレームワークを提案する。
我々は,事前条件付き勾配最適化を利用するMARSの3つの例を紹介する。
その結果,MARSの実装はAdamより一貫して優れていた。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - Pruning Large Language Models with Semi-Structural Adaptive Sparse Training [17.381160429641316]
Adaptive Sparse Trainer (AST)は、半構造化スパースモデルに適した、新規で効率的なリトレーニングフレームワークである。
ASTは、密度と2:4の半構造化スパースモデルのパープレキシティとゼロショット精度のギャップをそれぞれ0.6と1.16%に削減する。
論文 参考訳(メタデータ) (2024-07-30T06:33:44Z) - Adan: Adaptive Nesterov Momentum Algorithm for Faster Optimizing Deep Models [134.83964935755964]
ディープラーニングでは、異なる種類のディープネットワークは典型的に異なる補間を必要とし、複数のトライアル後に選択する必要がある。
本稿では,この問題を解消し,モデルトレーニング速度を継続的に改善するために,ADAtive Nesterov運動量変換器を提案する。
論文 参考訳(メタデータ) (2022-08-13T16:04:39Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。