Fugu-MT 論文翻訳(概要): Perfect Parallelization in Mini-Batch SGD with Classical Momentum Acceleration

論文の概要: Perfect Parallelization in Mini-Batch SGD with Classical Momentum Acceleration

arxiv url: http://arxiv.org/abs/2605.18609v1
Date: Mon, 18 May 2026 16:18:59 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-19 17:57:50.012008
Title: Perfect Parallelization in Mini-Batch SGD with Classical Momentum Acceleration
Title（参考訳）: 古典的モーメント・アクセラレーションを用いたミニバッチSGDの完全並列化
Authors: Sachin Garg, Michał Dereziński,
Abstract要約: 二次飽和系上での運動量加速度を最適化する理論を考案する。我々のフレームワークはヘビーボールとネステロフスタイルの運動量の両方を含み、任意のミニバッチサイズが可能である。私たちの理論は運動量に対する単純な選択も提供しており、これは経験的に有効であることが示されている。
参考スコア（独自算出の注目度）: 1.4323566945483497
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Accelerating stochastic gradient methods with classical momentum schemes, such as Polyak's heavy ball, has proven highly successful in training large-scale machine learning models, particularly when combined with the hardware acceleration of large mini-batch computations. Yet, the effect of classical momentum on stochastic mini-batch optimization has been poorly understood theoretically, with prior works requiring strong noise assumptions and extremely large mini-batches. In this work, we develop a general theory of stochastic momentum acceleration for optimizing over quadratics in the interpolation regime, a popular abstraction for studying deep learning dynamics which also includes classical methods such as randomized Kaczmarz and coordinate descent. Our framework encompasses both heavy ball and Nesterov-style momentum, allows for arbitrary mini-batch sizes, and makes minimal assumptions on the stochastic noise. In particular, we show that acceleration from classical momentum is directly proportional to the gradient mini-batch size (up to a natural saturation point), thereby enabling perfect parallelization of mini-batch computations. Our theory also provides a simple choice for the momentum parameter, which is shown to be effective empirically.
Abstract（参考訳）: Polyakのヘビーボールのような古典的なモーメントスキームによる確率勾配法の高速化は、特に大規模なミニバッチ計算のハードウェアアクセラレーションと組み合わせることで、大規模機械学習モデルのトレーニングに成功している。しかし、古典運動量による確率的ミニバッチ最適化への影響は理論的には理解されていない。本研究では、補間系における2次方程式を最適化するための確率運動量加速度の一般理論を開発する。これは、ランダム化カッツマルツや座標降下のような古典的手法を含む深層学習ダイナミクスを研究するための一般的な抽象化である。我々のフレームワークは重い球とネステロフスタイルの運動量の両方を包含し、任意のミニバッチサイズを許容し、確率的雑音に最小限の仮定を与える。特に、古典運動量からの加速度は勾配のミニバッチサイズ(自然飽和点まで)に直接比例し、ミニバッチ計算の完全並列化を可能にする。我々の理論は運動量パラメータの簡単な選択も提供しており、これは経験的に有効であることが示されている。

関連論文リスト

Deriving Hyperparameter Scaling Laws via Modern Optimization Theory [55.63126290312615]
線形最小化Oracle(LMO)に基づく手法の最近の一階境界について検討する。近年の文献のバウンダリをプロキシとして扱い、異なるチューニング規則をまたいでそれらを最小化することで、学習率、運動量、バッチサイズに関するクローズドフォームのパワーロースケジュールが得られる。本研究の結果は, 運動量とバッチサイズスケーリングの相互作用に特に注意を払っており, いくつかのスケーリング戦略によって最適性能が達成される可能性が示唆された。
論文参考訳（メタデータ） (2026-03-16T22:21:27Z)
From Black Hole to Galaxy: Neural Operator: Framework for Accretion and Feedback Dynamics [70.27068115318681]
ニューラルベースの「サブグリッドブラックホール」を導入し、小さな局所力学を学習し、直接シミュレーションに組み込む。微細な進化の大きなスピードアップにより、我々は、降着駆動のフィードバックで固有の変動を捉え、中心ブラックホールと銀河スケールのガスの動的結合を可能にした。
論文参考訳（メタデータ） (2025-12-01T11:47:49Z)
Accelerated Convergence of Stochastic Heavy Ball Method under Anisotropic Gradient Noise [16.12834917344859]
重球運動量法は加速収束を提供し、大きなバッチ設定でうまく機能するはずだと広く推測されている。重球運動量は, SGDの偏差項の加速収束率を$tildemathcalO(sqrtkappa)$で達成し, ほぼ最適収束率を達成できることを示した。つまり、重い球運動量を持つSGDは、分散機械学習やフェデレーション学習のような大規模なバッチ設定で有用である。
論文参考訳（メタデータ） (2023-12-22T09:58:39Z)
Losing momentum in continuous-time stochastic optimisation [42.617042045455506]
運動量に基づく最適化アルゴリズムは特に広まりました本研究では、運動量を伴う勾配降下の連続時間モデルを解析する。また、画像分類問題において畳み込みニューラルネットワークを訓練する。
論文参考訳（メタデータ） (2022-09-08T10:46:05Z)
On the fast convergence of minibatch heavy ball momentum [5.4755933832880865]
重球運動量は最適化問題に対する(決定論的)重球運動量の高速線形速度を保っていることを示す。このアルゴリズムは,極小バッチと重い球運動量を持つランダム化カッツマーズアルゴリズムと解釈できる。
論文参考訳（メタデータ） (2022-06-15T14:12:45Z)
Quantum algorithms for quantum dynamics: A performance study on the spin-boson model [68.8204255655161]
量子力学シミュレーションのための量子アルゴリズムは、伝統的に時間進化作用素のトロッター近似の実装に基づいている。変分量子アルゴリズムは欠かせない代替手段となり、現在のハードウェア上での小規模なシミュレーションを可能にしている。量子ゲートコストが明らかに削減されているにもかかわらず、現在の実装における変分法は量子的優位性をもたらすことはありそうにない。
論文参考訳（メタデータ） (2021-08-09T18:00:05Z)
Positive-Negative Momentum: Manipulating Stochastic Gradient Noise to Improve Generalization [89.7882166459412]
勾配雑音(SGN)は、ディープラーニングの暗黙の正規化として機能する。深層学習を改善するためにランダムノイズを注入してSGNを人工的にシミュレートしようとした作品もある。低計算コストでSGNをシミュレーションし、学習率やバッチサイズを変更することなく、PNM(Positive-Negative Momentum)アプローチを提案する。
論文参考訳（メタデータ） (2021-03-31T16:08:06Z)
Fast and differentiable simulation of driven quantum systems [58.720142291102135]
我々は、ダイソン展開に基づく半解析手法を導入し、標準数値法よりもはるかに高速に駆動量子系を時間発展させることができる。回路QEDアーキテクチャにおけるトランスモン量子ビットを用いた2量子ゲートの最適化結果を示す。
論文参考訳（メタデータ） (2020-12-16T21:43:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。