論文の概要: Adaptive Memory Momentum via a Model-Based Framework for Deep Learning Optimization
- arxiv url: http://arxiv.org/abs/2510.04988v1
- Date: Mon, 06 Oct 2025 16:24:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.983138
- Title: Adaptive Memory Momentum via a Model-Based Framework for Deep Learning Optimization
- Title(参考訳): ディープラーニング最適化のためのモデルベースフレームワークによる適応メモリモーメント
- Authors: Kristi Topollai, Anna Choromanska,
- Abstract要約: 定常運動量係数を動的運動量係数に置き換えるテクスチマタテプティブメモリ機構を導入する。
我々はSGDとAdamWの両方の適応型メモリを幅広い学習タスクで実装する。
私たちの仕事は、最適化において適応性を誘導する新しい方法の扉を開く。
- 参考スコア(独自算出の注目度): 10.325245543844245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The vast majority of modern deep learning models are trained with momentum-based first-order optimizers. The momentum term governs the optimizer's memory by determining how much each past gradient contributes to the current convergence direction. Fundamental momentum methods, such as Nesterov Accelerated Gradient and the Heavy Ball method, as well as more recent optimizers such as AdamW and Lion, all rely on the momentum coefficient that is customarily set to $\beta = 0.9$ and kept constant during model training, a strategy widely used by practitioners, yet suboptimal. In this paper, we introduce an \textit{adaptive memory} mechanism that replaces constant momentum with a dynamic momentum coefficient that is adjusted online during optimization. We derive our method by approximating the objective function using two planes: one derived from the gradient at the current iterate and the other obtained from the accumulated memory of the past gradients. To the best of our knowledge, such a proximal framework was never used for momentum-based optimization. Our proposed approach is novel, extremely simple to use, and does not rely on extra assumptions or hyperparameter tuning. We implement adaptive memory variants of both SGD and AdamW across a wide range of learning tasks, from simple convex problems to large-scale deep learning scenarios, demonstrating that our approach can outperform standard SGD and Adam with hand-tuned momentum coefficients. Finally, our work opens doors for new ways of inducing adaptivity in optimization.
- Abstract(参考訳): 現代のディープラーニングモデルの大半は、モーメントベースの一階最適化でトレーニングされている。
モーメント項は、過去の勾配が現在の収束方向にどれだけ寄与するかを決定することによって、オプティマイザの記憶を制御している。
Nesterov Accelerated Gradient や Heavy Ball といった基本的な運動量法や、AdamW や Lion のようなより最近の最適化手法は、通常、モデルトレーニング中に定数である$\beta = 0.9$ に設定される運動量係数に依存している。
本稿では,一定運動量に代えて,最適化時にオンラインに調整された動的運動量係数に置き換える「textit{adaptive memory}」機構を提案する。
本手法は,2つの平面を用いて目的関数を近似することにより導出する。1つは現行の勾配から導出し,もう1つは過去の勾配の蓄積メモリから得られる。
我々の知る限りでは、そのような近位フレームワークは運動量に基づく最適化には使われなかった。
提案手法は新規で,使用が非常に簡単で,余分な仮定やハイパーパラメータチューニングに依存しない。
我々は,SGDとAdamWの両方の適応型メモリを,単純な凸問題から大規模深層学習シナリオまで幅広い学習タスクで実装し,本手法が手動運動量係数で標準SGDとAdamより優れていることを示す。
最後に、我々の研究は、最適化において適応性を誘導する新しい方法の扉を開く。
関連論文リスト
- Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
線形最小化オラクル(LMO)を用いて問題の幾何学に適応する新しいアルゴリズム群を提案する。
我々は,Adamに頼らずに,我々のアルゴリズムであるScionを用いたナノGPTトレーニングの大幅な高速化を示す。
論文 参考訳(メタデータ) (2025-02-11T13:10:34Z) - Revisiting the Initial Steps in Adaptive Gradient Descent Optimization [6.468625143772815]
Adamのような適応的な勾配最適化手法は、さまざまな機械学習タスクにわたるディープニューラルネットワークのトレーニングで広く使われている。
これらの手法は、降下勾配 (SGD) と比較して最適下一般化に苦しむことが多く、不安定性を示す。
非ゼロ値で2階モーメント推定を初期化する。
論文 参考訳(メタデータ) (2024-12-03T04:28:14Z) - MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.67982828148859]
深層ニューラルネットワークのための統合トレーニングフレームワークを提案する。
我々は,事前条件付き勾配最適化を利用するMARSの3つの例を紹介する。
その結果,MARSの実装はAdamより一貫して優れていた。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - Memory-Efficient Optimization with Factorized Hamiltonian Descent [11.01832755213396]
本稿では,この課題に対処するためのメモリ効率因子化手法を取り入れた新しい適応型H-Facを提案する。
運動量とスケーリングパラメータ推定器の両方にランク1パラメータ化を適用することで、H-Facはメモリコストをサブ線形レベルに削減する。
我々はハミルトン力学から導かれる原理に基づいてアルゴリズムを開発し、最適化力学と収束保証において堅牢な理論的基盤を提供する。
論文 参考訳(メタデータ) (2024-06-14T12:05:17Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Multiplicative update rules for accelerating deep learning training and
increasing robustness [69.90473612073767]
我々は、幅広い機械学習アルゴリズムに適合し、代替の更新ルールを適用することができる最適化フレームワークを提案する。
提案するフレームワークはトレーニングを加速する一方、従来の追加更新ルールとは対照的に、より堅牢なモデルにつながります。
論文 参考訳(メタデータ) (2023-07-14T06:44:43Z) - Flatter, faster: scaling momentum for optimal speedup of SGD [0.0]
ニューラルネットワークのトレーニングにおいて、勾配降下(SGD)とラベルノイズと運動量との相互作用から生じるトレーニングダイナミクスについて検討した。
運動量ハイパーパラメータ1-NISTbeta$を学習率で2/3$にスケーリングすると、一般化を犠牲にすることなく、最大で2/3$のトレーニングが加速することがわかった。
論文 参考訳(メタデータ) (2022-10-28T20:41:48Z) - SHINE: SHaring the INverse Estimate from the forward pass for bi-level
optimization and implicit models [15.541264326378366]
近年,深層ニューラルネットワークの深度を高める手法として暗黙の深度学習が登場している。
トレーニングは双レベル問題として実行され、その計算複雑性は巨大なヤコビ行列の反復反転によって部分的に駆動される。
本稿では,この計算ボトルネックに対処する新たな手法を提案する。
論文 参考訳(メタデータ) (2021-06-01T15:07:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。