論文の概要: AdamX: An Adam improvement algorithm based on a novel exponential decay mechanism for the second-order moment estimate
- arxiv url: http://arxiv.org/abs/2511.13465v2
- Date: Wed, 19 Nov 2025 14:11:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 13:41:21.112429
- Title: AdamX: An Adam improvement algorithm based on a novel exponential decay mechanism for the second-order moment estimate
- Title(参考訳): AdamX: 2次モーメント推定のための新しい指数減衰機構に基づくアダム改善アルゴリズム
- Authors: Meng Zhu, Quan Xiao, Weidong Min,
- Abstract要約: AdamXアルゴリズムは局所的および大域的ミニマに高次元最適化を収束させるために提案されている。
その中心となる革新は、新しいタイプの2階モーメント推定指数減衰率の提案にある。
その結果, 2次モーメント推定指数減衰速度は, 現在の2次モーメント推定指数減衰速度よりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 13.40796672049436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since the 21st century, artificial intelligence has been leading a new round of industrial revolution. Under the training framework, the optimization algorithm aims to stably converge high-dimensional optimization to local and even global minima. Entering the era of large language models, although the scale of model parameters and data has increased, Adam remains the mainstream optimization algorithm. However, compared with stochastic gradient descent (SGD) based optimization algorithms, Adam is more likely to converge to non-flat minima. To address this issue, the AdamX algorithm is proposed. Its core innovation lies in the proposition of a novel type of second-order moment estimation exponential decay rate, which gradually weakens the learning step correction strength as training progresses, and degrades to SGD in the stable training period, thereby improving the stability of training in the stable period and possibly enhancing generalization ability. Experimental results show that our second-order moment estimation exponential decay rate is better than the current second-order moment estimation exponential decay rate, and AdamX can stably outperform Adam and its variants in terms of performance. Our code is open-sourced at https://github.com/mengzhu0308/AdamX.
- Abstract(参考訳): 21世紀以降、人工知能は新たな産業革命を主導してきた。
トレーニングフレームワークの下では、最適化アルゴリズムは局所的およびグローバルなミニマに安定して高次元の最適化を収束させることを目的としている。
大規模な言語モデルの時代に入るが、モデルパラメータとデータのスケールは増大しているが、Adamは依然として主流の最適化アルゴリズムである。
しかし、確率勾配勾配(SGD)に基づく最適化アルゴリズムと比較して、アダムは非平坦なミニマに収束する可能性が高い。
この問題に対処するため,AdamXアルゴリズムを提案する。
その中心となる革新は、トレーニングが進むにつれて学習ステップ補正強度を徐々に弱め、安定したトレーニング期間でSGDに格下げし、安定した期間におけるトレーニングの安定性を向上し、一般化能力を高める新しいタイプの2次モーメント推定指数減衰率の提案にある。
実験結果から,2次モーメント推定指数減衰速度は現在の2次モーメント推定指数減衰速度よりも優れており,AdamXはAdamとその変種を安定して性能的に上回っていることがわかった。
私たちのコードはhttps://github.com/mengzhu0308/AdamX.comでオープンソース化されています。
関連論文リスト
- MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.67982828148859]
深層ニューラルネットワークのための統合トレーニングフレームワークを提案する。
我々は,事前条件付き勾配最適化を利用するMARSの3つの例を紹介する。
その結果,MARSの実装はAdamより一貫して優れていた。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - Conjugate-Gradient-like Based Adaptive Moment Estimation Optimization Algorithm for Deep Learning [2.695991050833627]
本稿では,ディープラーニングのためのCG-like-Adamという新しい最適化アルゴリズムを提案する。
具体的には、ジェネリック・アダムの第1次と第2次モーメント推定の両方を共役次数様に置き換える。
CIFAR10/100データセットに基づく提案アルゴリズムの優位性を示す数値実験を行った。
論文 参考訳(メタデータ) (2024-04-02T07:57:17Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z) - AdaX: Adaptive Gradient Descent with Exponential Long Term Memory [34.6432726391469]
我々は、単純な非ビジョン機械学習タスクにおいて、その性能を分析することでAdamの問題を解析する。
この問題を解決するために,AdaX という新しい適応勾配を提案する。
AdaXは様々な自然言語処理タスクにおいてAdamより優れています。
論文 参考訳(メタデータ) (2020-04-21T03:46:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。