論文の概要: Improving the Adaptive Moment Estimation (ADAM) stochastic optimizer through an Implicit-Explicit (IMEX) time-stepping approach
- arxiv url: http://arxiv.org/abs/2403.13704v2
- Date: Sat, 14 Sep 2024 01:44:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 02:45:24.174291
- Title: Improving the Adaptive Moment Estimation (ADAM) stochastic optimizer through an Implicit-Explicit (IMEX) time-stepping approach
- Title(参考訳): Implicit-Explicit (IMEX) による適応モーメント推定(ADAM)確率最適化器の改良
- Authors: Abhinab Bhattacharjee, Andrey A. Popov, Arash Sarshar, Adrian Sandu,
- Abstract要約: 古典的アダムアルゴリズムは、基礎となるODEの1次暗黙的明示的(IMEX)離散化である。
我々は、高階IMEX法を用いてODEを解くAdamスキームの新たな拡張を提案する。
いくつかの回帰問題と分類問題において,従来のAdamよりも優れた性能を示すニューラルネットワークトレーニングのための新しい最適化アルゴリズムを導出する。
- 参考スコア(独自算出の注目度): 1.2233362977312945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Adam optimizer, often used in Machine Learning for neural network training, corresponds to an underlying ordinary differential equation (ODE) in the limit of very small learning rates. This work shows that the classical Adam algorithm is a first-order implicit-explicit (IMEX) Euler discretization of the underlying ODE. Employing the time discretization point of view, we propose new extensions of the Adam scheme obtained by using higher-order IMEX methods to solve the ODE. Based on this approach, we derive a new optimization algorithm for neural network training that performs better than classical Adam on several regression and classification problems.
- Abstract(参考訳): ニューラルネットワークトレーニングで機械学習でよく使用されるアダム最適化器は、非常に少ない学習率の限界における基礎となる常微分方程式(ODE)に対応する。
この研究は、古典的なアダムアルゴリズムが、基礎となるODEのオイラー離散化(IMEX)であることを示している。
本稿では、時間離散化の観点から、高階IMEX法を用いてODEを解いたAdamスキームの新たな拡張を提案する。
提案手法は,従来のAdamよりもいくつかの回帰および分類問題において優れた性能を発揮するニューラルネットワークトレーニングのための新しい最適化アルゴリズムを導出する。
関連論文リスト
- Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
正規球上の線形最小化オラクル(LMO)を利用する最適化手法について検討する。
この問題の幾何学に適応するためにLMOを用いた新しいアルゴリズム群を提案し, 意外なことに, 制約のない問題に適用可能であることを示す。
論文 参考訳(メタデータ) (2025-02-11T13:10:34Z) - Averaged Adam accelerates stochastic optimization in the training of deep neural network approximations for partial differential equation and optimal control problems [5.052293146674794]
この研究は古典的なPolyak-Ruppert平均化アプローチにインスパイアされている。
本研究では,Adam法の平均変種をディープラーニングネットワーク(DNN)の学習に適用する。
それぞれの数値例では、採用される平均変種Adamは標準Adamと標準SGDよりも優れている。
論文 参考訳(メタデータ) (2025-01-10T16:15:25Z) - Learning rate adaptive stochastic gradient descent optimization methods: numerical simulations for deep learning methods for partial differential equations and convergence analyses [5.052293146674794]
標準降下(SGD)最適化法は、学習率が0に収束しない場合、アダムのような加速および適応SGD最適化法が収束しないことが知られている。
本研究では,経験的推定に基づいて学習率を調整するSGD最適化手法の学習速度適応手法を提案し,検討する。
論文 参考訳(メタデータ) (2024-06-20T14:07:39Z) - Conjugate-Gradient-like Based Adaptive Moment Estimation Optimization Algorithm for Deep Learning [2.695991050833627]
本稿では,ディープラーニングのためのCG-like-Adamという新しい最適化アルゴリズムを提案する。
具体的には、ジェネリック・アダムの第1次と第2次モーメント推定の両方を共役次数様に置き換える。
CIFAR10/100データセットに基づく提案アルゴリズムの優位性を示す数値実験を行った。
論文 参考訳(メタデータ) (2024-04-02T07:57:17Z) - A Control Theoretic Framework for Adaptive Gradient Optimizers in
Machine Learning [0.6526824510982802]
適応勾配法はディープニューラルネットワークの最適化に人気がある。
最近の例にはAdaGradとAdamがある。
我々は適応的勾配法のための汎用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2022-06-04T17:55:33Z) - Can we learn gradients by Hamiltonian Neural Networks? [68.8204255655161]
本稿では,勾配を学習するODEニューラルネットワークに基づくメタラーナを提案する。
提案手法は,LLUアクティベーションを最適化したMLMとMNISTデータセットにおいて,LSTMに基づくメタラーナーよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-10-31T18:35:10Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Meta-Solver for Neural Ordinary Differential Equations [77.8918415523446]
本研究では,ソルバ空間の変動がニューラルODEの性能を向上する方法について検討する。
解法パラメータ化の正しい選択は, 敵の攻撃に対するロバスト性の観点から, 神経odesモデルに大きな影響を与える可能性がある。
論文 参考訳(メタデータ) (2021-03-15T17:26:34Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。