論文の概要: Refresh-Scaling the Memory of Balanced Adam
- arxiv url: http://arxiv.org/abs/2605.10119v2
- Date: Tue, 12 May 2026 07:05:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 18:21:07.111848
- Title: Refresh-Scaling the Memory of Balanced Adam
- Title(参考訳): Refresh-Scaling the Memory of Balanced Adam
- Authors: Alberto Fernández-Hernández, Cristian Pérez-Corral, Jose I. Mestre, Manuel F. Dolz, Enrique S. Quintana-Ortí,
- Abstract要約: バランスの取れたAdamでは、$は無次元定数として扱われるべきではない。
我々は、Adamがトレーニングの有用な段階で内部統計を更新する回数を計測するリフレッシュカウント$R_= (1-)T_mathrmES$について検討する。
- 参考スコア(独自算出の注目度): 1.1145952934885128
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent evidence suggests that Adam performs robustly when its momentum parameters are tied, $β_1=β_2$, reducing the optimizer to a single remaining parameter. However, how this parameter should be set remains poorly understood. We argue that, in balanced Adam, $β$ should not be treated as a dimensionless constant: it defines a statistical memory horizon $H_β=(1-β)^{-1}$. In terms of the effective learning horizon $T_{\mathrm{ES}}$, estimated from the validation trajectory, we study the refresh count $R_β=(1-β)T_{\mathrm{ES}}$, which measures how many times Adam renews its internal statistics during the useful phase of training. Across 11 vision and language experiments, we find that choosing $β$ so that $R_β\approx1000$ selects different $β$ values depending on the training scale, yet improves robustness over the best fixed-beta baseline. Compared with the strongest fixed choice $β=0.944$, the refresh rule improves worst-case robustness, reducing the maximum relative gap in validation loss by 33.4\%, while bringing all 11 runs within 1\% of their validation oracle. These results suggest that the remaining hyperparameter of balanced Adam is more naturally viewed as a memory-scale variable than as a fixed constant. This provides a simple budget-aware perspective on optimizer scaling and opens a path toward treating Adam's momentum as part of the learning dynamics rather than as a static default.
- Abstract(参考訳): 近年の証拠は、アダムがその運動量パラメータが結合されたときに、$β_1=β_2$ が強固に作用し、オプティマイザを1つの残りのパラメータに還元することを示している。
しかし、このパラメータをどのように設定すべきかは、いまだに理解されていない。
我々は、バランスの取れたAdamにおいて、$β$は次元のない定数として扱われるべきではないと主張する:それは統計メモリの地平線$H_β=(1-β)^{-1}$を定義する。
有効学習地平線である$T_{\mathrm{ES}}$の検証軌道から推定すると、Adamがトレーニングの有用な段階で内部統計を何回更新するかを測定するために、リフレッシュカウント$R_β=(1-β)T_{\mathrm{ES}}$について検討する。
11のビジョンと言語実験で、$R_β\approx1000$がトレーニングスケールによって異なる$β$を選択するために$β$を選択するが、最高の固定ベータベースラインよりも堅牢性を改善する。
最強の固定選択である$β=0.944$と比較して、リフレッシュルールは最悪のケースのロバスト性を改善し、検証損失の最大相対ギャップを33.4\%削減し、検証オラクルの1\%以内に全11回実行させる。
これらの結果は、バランスの取れたAdamの残っていたハイパーパラメータが、固定定数よりもメモリスケールの変数として自然に見なされていることを示唆している。
静的なデフォルトではなく、学習ダイナミクスの一部として、Adamの運動量を扱うための道を開くのです。
関連論文リスト
- Adam Converges Without Any Modification On Update Rules [24.855239154362895]
Adam氏は、大規模言語モデル(LLM)を含むニューラルネットワークをトレーニングするためのデフォルトのアルゴリズムである。
citetreddi 2019コンバージェンスは、Adam氏が多様化し、AIモデルトレーニングへの展開に対する懸念を提起した例である。
論文 参考訳(メタデータ) (2026-03-02T17:08:51Z) - Simple Convergence Proof of Adam From a Sign-like Descent Perspective [58.89890024903816]
我々は、Adamが以前の$cal O(fracln TTs14)$よりも$cal O(frac1Ts14)$の最適なレートを達成することを示す。
我々の理論分析は、収束を保証する重要な要因として運動量の役割に関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2025-07-08T13:19:26Z) - Beyond likelihood ratio bias: Nested multi-time-scale stochastic approximation for likelihood-free parameter estimation [49.78792404811239]
確率分析形式が不明なシミュレーションベースモデルにおける推論について検討する。
我々は、スコアを同時に追跡し、パラメータ更新を駆動する比率のないネスト型マルチタイムスケール近似(SA)手法を用いる。
我々のアルゴリズムは、オリジナルのバイアス$Obig(sqrtfrac1Nbig)$を排除し、収束率を$Obig(beta_k+sqrtfracalpha_kNbig)$から加速できることを示す。
論文 参考訳(メタデータ) (2024-11-20T02:46:15Z) - ADOPT: Modified Adam Can Converge with Any $β_2$ with the Optimal Rate [21.378608502899077]
本稿では,ADOPTという新しい適応勾配法を提案する。これは,有界雑音の仮定に依存することなく,$mathcalOの最適収束率を実現する。
ADOPTは、画像分類、生成モデル、自然言語処理、深層強化学習など、幅広いタスクにおいて、Adamとその変種と比較して優れた結果が得られる。
論文 参考訳(メタデータ) (2024-11-05T06:57:47Z) - Depth Dependence of $\mu$P Learning Rates in ReLU MLPs [72.14317069090407]
我々は、最大更新(mu$P)学習率の$n$と$L$に依存することを研究する。
我々は、$L3/2.$のように、$L$の非自明な依存があることを発見した。
論文 参考訳(メタデータ) (2023-05-13T01:10:49Z) - Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。
我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。
画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-11-24T09:28:53Z) - A new regret analysis for Adam-type algorithms [78.825194932103]
理論的には、オンライン凸最適化に対する後悔の保証は、急速に崩壊する$beta_1to0$スケジュールを必要とする。
最適なデータ依存リセット境界を一定の$beta_1$で導出できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-21T19:19:51Z) - A Simple Convergence Proof of Adam and Adagrad [74.24716715922759]
我々はAdam Adagradと$O(d(N)/st)$アルゴリズムの収束の証明を示す。
Adamはデフォルトパラメータで使用する場合と同じ収束$O(d(N)/st)$で収束する。
論文 参考訳(メタデータ) (2020-03-05T01:56:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。