論文の概要: A Control Theoretic Framework for Adaptive Gradient Optimizers in
Machine Learning
- arxiv url: http://arxiv.org/abs/2206.02034v2
- Date: Sat, 19 Aug 2023 13:42:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 03:04:07.001825
- Title: A Control Theoretic Framework for Adaptive Gradient Optimizers in
Machine Learning
- Title(参考訳): 機械学習における適応勾配最適化のための制御論的枠組み
- Authors: Kushal Chakrabarti and Nikhil Chopra
- Abstract要約: 適応勾配法はディープニューラルネットワークの最適化に人気がある。
最近の例にはAdaGradとAdamがある。
我々は適応的勾配法のための汎用的なフレームワークを開発する。
- 参考スコア(独自算出の注目度): 0.6526824510982802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adaptive gradient methods have become popular in optimizing deep neural
networks; recent examples include AdaGrad and Adam. Although Adam usually
converges faster, variations of Adam, for instance, the AdaBelief algorithm,
have been proposed to enhance Adam's poor generalization ability compared to
the classical stochastic gradient method. This paper develops a generic
framework for adaptive gradient methods that solve non-convex optimization
problems. We first model the adaptive gradient methods in a state-space
framework, which allows us to present simpler convergence proofs of adaptive
optimizers such as AdaGrad, Adam, and AdaBelief. We then utilize the transfer
function paradigm from classical control theory to propose a new variant of
Adam, coined AdamSSM. We add an appropriate pole-zero pair in the transfer
function from squared gradients to the second moment estimate. We prove the
convergence of the proposed AdamSSM algorithm. Applications on benchmark
machine learning tasks of image classification using CNN architectures and
language modeling using LSTM architecture demonstrate that the AdamSSM
algorithm improves the gap between generalization accuracy and faster
convergence than the recent adaptive gradient methods.
- Abstract(参考訳): 適応勾配法は、ディープニューラルネットワークの最適化に人気となり、最近の例にはAdaGradやAdamなどがある。
アダムは通常より早く収束するが、例えばAdaBeliefアルゴリズムのようなアダムの変分は、古典的確率勾配法と比較してアダムの弱一般化能力を高めるために提案されている。
本稿では,非凸最適化問題の解法として適応勾配法を提案する。
まず,アダグラード,adam,adabeliefなどの適応オプティマイザのより簡単な収束証明を提示できる状態空間フレームワークで適応勾配法をモデル化した。
次に、古典制御理論からの伝達関数のパラダイムを用いて、AdamSSMという新しい変種を提案する。
我々は、二乗勾配から第二モーメント推定への伝達関数に適切な極対を加える。
我々は提案したAdamSSMアルゴリズムの収束性を証明する。
CNNアーキテクチャを用いた画像分類とLSTMアーキテクチャを用いた言語モデリングのベンチマーク機械学習タスクへの応用により、AdamSSMアルゴリズムは、最近の適応勾配法よりも一般化精度と高速収束のギャップを向上することを示した。
関連論文リスト
- MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
Adam、Adam、およびそれらの変種のような大規模な勾配アルゴリズムは、この種のトレーニングの開発の中心となっている。
本稿では,事前条件付き勾配最適化手法と,スケールドモーメント手法による分散低減を両立させる枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - Improving the Adaptive Moment Estimation (ADAM) stochastic optimizer through an Implicit-Explicit (IMEX) time-stepping approach [1.2233362977312945]
古典的アダムアルゴリズムは、基礎となるODEの1次暗黙的明示的(IMEX)離散化である。
我々は、高階IMEX法を用いてODEを解くAdamスキームの新たな拡張を提案する。
いくつかの回帰問題と分類問題において,従来のAdamよりも優れた性能を示すニューラルネットワークトレーニングのための新しい最適化アルゴリズムを導出する。
論文 参考訳(メタデータ) (2024-03-20T16:08:27Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Exploiting Adam-like Optimization Algorithms to Improve the Performance
of Convolutional Neural Networks [82.61182037130405]
勾配降下(SGD)は深いネットワークを訓練するための主要なアプローチです。
本研究では,現在と過去の勾配の違いに基づいて,Adamに基づく変分を比較する。
resnet50を勾配降下訓練したネットワークのアンサンブルと融合実験を行った。
論文 参考訳(メタデータ) (2021-03-26T18:55:08Z) - CADA: Communication-Adaptive Distributed Adam [31.02472517086767]
勾配降下(SGD)は、大規模機械学習の主要な作業場としてステージに立った。
本稿では,Adam方式の通信適応型手法とみなす分散機械学習の適応勾配降下法を提案する。
論文 参考訳(メタデータ) (2020-12-31T06:52:18Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。