論文の概要: Why Adam Works Better with $β_1 = β_2$: The Missing Gradient Scale Invariance Principle
- arxiv url: http://arxiv.org/abs/2601.21739v1
- Date: Thu, 29 Jan 2026 13:56:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.872258
- Title: Why Adam Works Better with $β_1 = β_2$: The Missing Gradient Scale Invariance Principle
- Title(参考訳): Adamが$β_1 = β_2$でうまく機能する理由: スケール不変性の欠如
- Authors: Alberto Fernández-Hernández, Cristian Pérez-Corral, Jose I. Mestre, Manuel F. Dolz, Enrique S. Quintana-Ortí,
- Abstract要約: Adamは10年近く、大規模なトレーニングの中心にいる。
アダムが 1 次階の勾配スケール不変量となるのは、$_1=_2 である。
- 参考スコア(独自算出の注目度): 1.1145952934885128
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adam has been at the core of large-scale training for almost a decade, yet a simple empirical fact remains unaccounted for: both validation scores and the qualitative behaviour of the training runs improve when the momentum parameters satisfy $β_{1}=β_{2}$. Some recent studies have reported this pattern, but there is still no explanation for why this choice helps. We show that this choice is closely tied to a structural property that we refer to as \textit{gradient scale invariance}. We formalize this notion and prove that Adam becomes gradient scale invariant of first order if and only if $β_{1}=β_{2}$. This perspective places the balanced regime of Adam in direct alignment with the design principles underlying several recent optimizers that explicitly enforce scale-robust updates. The theory is supported by experiments across vision and language tasks, and across different architectural families, in which rescaling the gradient has a markedly smoother effect on the update when $β_{1}=β_{2}$. Overall, our results offer a coherent explanation for an open question in the behavior of Adam and provide a simple principle that helps guide the design of future optimizers.
- Abstract(参考訳): アダムは10年近く、大規模なトレーニングの中核にいるが、単純な経験的事実は、検証スコアと定性的なトレーニングの振る舞いの両方が、運動量パラメータがβ_{1}=β_{2}$を満足するときに改善される。
最近の研究ではこのパターンが報告されているが、なぜこの選択が役立つのかは説明されていない。
この選択は、我々が「textit{gradient scale invariance}」と呼ぶ構造的性質と密接に結びついていることが示される。
この概念を定式化し、Adam が 1次階の勾配スケール不変量であることを証明する。
この観点では、Adamのバランスの取れた体制は、スケール・ロバストな更新を明示的に実施する最近のオプティマイザの根底にある設計原則と直接一致している。
この理論は、視覚的タスクや言語的タスク、アーキテクチャ上のさまざまなファミリーによる実験によって支持されており、β_{1}=β_{2}$の更新では、勾配の再スケーリングが著しくスムーズな効果を持つ。
全体として、私たちの結果はAdamの行動におけるオープンな質問に対する一貫性のある説明を提供し、将来の最適化設計の指針となるシンプルな原則を提供します。
関連論文リスト
- Implicit Bias of Per-sample Adam on Separable Data: Departure from the Full-batch Regime [26.492222550365735]
アダムは深層学習の事実上のデファクトであるが、理論的な理解は限られている。
線形分離可能なデータに対するロジスティック回帰のために, インクリメンタルAdamの暗黙バイアス(ステップ毎に1つのサンプルを用いて)について検討した。
我々は、Adam が $ell_infty$-max-margin に確実に収束する構造化データセットのクラスを構築する。
論文 参考訳(メタデータ) (2025-10-30T09:41:33Z) - Simple Convergence Proof of Adam From a Sign-like Descent Perspective [58.89890024903816]
我々は、Adamが以前の$cal O(fracln TTs14)$よりも$cal O(frac1Ts14)$の最適なレートを達成することを示す。
我々の理論分析は、収束を保証する重要な要因として運動量の役割に関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2025-07-08T13:19:26Z) - Provable Adaptivity of Adam under Non-uniform Smoothness [79.25087082434975]
アダムは急速に収束するため、実用的な用途で広く採用されている。
アダムの既存の収束解析は、有界な滑らかさの仮定に依存する。
本稿では,ランダムにリシャッフルされたAdamの学習率の低下に伴う収束について検討する。
論文 参考訳(メタデータ) (2022-08-21T14:57:47Z) - Understanding AdamW through Proximal Methods and Scale-Freeness [57.47324825501137]
Adam は $ell$ regularizer Adam-$ell$ の一般化である。
AdamWは、Adam-$ell$の更新ルールからAdam-$ell$の勾配を分離する。
我々はAdamWがAdam-$ell$よりも有利であることを示し、ネットワークの勾配が複数のスケールを示すことを期待する度合いを示す。
論文 参考訳(メタデータ) (2022-01-31T21:00:55Z) - Investigating Alternatives to the Root Mean Square for Adaptive Gradient
Methods [20.531576904743282]
Adamは適応勾配法であり、高速で信頼性の高いトレーニング性能のために広く採用されている。
最近のアプローチでは、Adamよりも大幅に改善されていないが、多くの場合、その中核的な特徴の1つ、すなわち最近の勾配のルート平均平方(RMS)による正規化を革新しないためである。
適応勾配法に対する異なる$Lp$ノルムの影響を理論的かつ実証的に初めて特徴づける。
論文 参考訳(メタデータ) (2021-06-10T01:38:37Z) - Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。
我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。
画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-11-24T09:28:53Z) - A new regret analysis for Adam-type algorithms [78.825194932103]
理論的には、オンライン凸最適化に対する後悔の保証は、急速に崩壊する$beta_1to0$スケジュールを必要とする。
最適なデータ依存リセット境界を一定の$beta_1$で導出できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-21T19:19:51Z) - A Simple Convergence Proof of Adam and Adagrad [74.24716715922759]
我々はAdam Adagradと$O(d(N)/st)$アルゴリズムの収束の証明を示す。
Adamはデフォルトパラメータで使用する場合と同じ収束$O(d(N)/st)$で収束する。
論文 参考訳(メタデータ) (2020-03-05T01:56:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。