論文の概要: Towards Practical Adam: Non-Convexity, Convergence Theory, and
Mini-Batch Acceleration
- arxiv url: http://arxiv.org/abs/2101.05471v1
- Date: Thu, 14 Jan 2021 06:42:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-29 08:56:27.116141
- Title: Towards Practical Adam: Non-Convexity, Convergence Theory, and
Mini-Batch Acceleration
- Title(参考訳): 実用的adamに向けて:非凸性、収束理論、ミニバッチ加速
- Authors: Congliang Chen, Li Shen, Fangyu Zou, Wei Liu
- Abstract要約: Adamは、ディープニューラルネットワークをトレーニングするための最も影響力のある適応アルゴリズムの1つです。
適応学習率の低下、大きなバッチサイズの採用など、既存のアプローチは、Adam型アルゴリズムの収束を促進しようとしている。
本稿では,履歴ベース学習率のパラメータにのみ依存する,代替的な簡易チェック条件を提案する。
- 参考スコア(独自算出の注目度): 12.744658958445024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adam is one of the most influential adaptive stochastic algorithms for
training deep neural networks, which has been pointed out to be divergent even
in the simple convex setting via a few simple counterexamples. Many attempts,
such as decreasing an adaptive learning rate, adopting a big batch size,
incorporating a temporal decorrelation technique, seeking an analogous
surrogate, \textit{etc.}, have been tried to promote Adam-type algorithms to
converge. In contrast with existing approaches, we introduce an alternative
easy-to-check sufficient condition, which merely depends on the parameters of
the base learning rate and combinations of historical second-order moments, to
guarantee the global convergence of generic Adam for solving large-scale
non-convex stochastic optimization. This observation coupled with this
sufficient condition gives much deeper interpretations on the divergence of
Adam. On the other hand, in practice, mini-Adam and distributed-Adam are widely
used without theoretical guarantee, we further give an analysis on how will the
batch size or the number of nodes in the distributed system will affect the
convergence of Adam, which theoretically shows that mini-batch and distributed
Adam can be linearly accelerated by using a larger mini-batch size or more
number of nodes. At last, we apply the generic Adam and mini-batch Adam with a
sufficient condition for solving the counterexample and training several
different neural networks on various real-world datasets. Experimental results
are exactly in accord with our theoretical analysis.
- Abstract(参考訳): アダムは、深層ニューラルネットワークを訓練するための最も影響力のある適応確率アルゴリズムの1つであり、いくつかの単純な反例を通じて単純な凸設定においても発散することが指摘されている。
例えば、適応学習率の低下、大きなバッチサイズの採用、時間的非相関技法の導入、類似のサロゲートである \textit{etc を求めるなどである。
これはAdam型アルゴリズムの収束を促進するためである。
既存の手法とは対照的に,ベース学習率と歴史的2次モーメントの組み合わせのパラメータにのみ依存し,大規模な非凸確率最適化を解くためのジェネリック・アダムのグローバル収束を保証する,チェックが容易な条件を導入する。
この十分条件と組み合わされた観測は、アダムの発散に関するより深い解釈を与える。
一方,ミニバッチと分散Adamは理論上の保証なく広く利用されているため,分散システムのバッチサイズやノード数がAdamの収束にどのように影響するかを解析した結果,ミニバッチと分散Adamは,より大きなミニバッチサイズあるいはより多くのノードを用いて線形に加速可能であることが理論的に示されている。
最終的に、一般的なAdamとミニバッチAdamを、反例を解決するのに十分な条件で適用し、さまざまな実世界のデータセット上で複数の異なるニューラルネットワークをトレーニングする。
実験結果は理論解析と全く一致している。
関連論文リスト
- Towards Communication-efficient Federated Learning via Sparse and Aligned Adaptive Optimization [65.85963235502322]
Federated Adam (FedAdam) アルゴリズムはアップリンク通信オーバーヘッドの3倍の増大に悩まされている。
我々はFedAdam-SSMと呼ばれる新しいスパースなFedAdamアルゴリズムを提案する。
我々は,FedAdam-SSMが訓練したモデルと集中型Adamの差異を最小化することにより,スペーシフィケーションエラーによる学習性能劣化を軽減するためにSSMを最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:56:49Z) - Convergence of Adam Under Relaxed Assumptions [72.24779199744954]
我々は、アダムがより現実的な条件下で、$O(epsilon-4)$勾配複雑性で$epsilon$-定常点に収束することを示している。
また、Adamの分散還元版を$O(epsilon-3)$の加速勾配複雑性で提案する。
論文 参考訳(メタデータ) (2023-04-27T06:27:37Z) - Efficient-Adam: Communication-Efficient Distributed Adam [28.287237692902476]
我々は新しいコミュニケーションの複雑さを提示する。
効率のよい分散Adamモデル。
サーバとワーカの間のコストを削減するために、双方向の量子化を行う。
論文 参考訳(メタデータ) (2022-05-28T16:17:52Z) - A Novel Convergence Analysis for Algorithms of the Adam Family [105.22760323075008]
本稿ではAdam, AMSGrad, AdaboundなどのAdamスタイルの手法群に対する収束の一般的な証明を示す。
我々の分析は非常に単純で汎用的なので、より広範な非構成最適化問題の族を解くための収束を確立するために利用することができる。
論文 参考訳(メタデータ) (2021-12-07T02:47:58Z) - On the One-sided Convergence of Adam-type Algorithms in Non-convex
Non-concave Min-max Optimization [43.504548777955854]
本稿では,一方のMVI条件下での分極最適化問題において,アダム型アルゴリズムが一方の1次定常点に収束することを示す。
また,この片側MVI条件が標準GANに対して満たされていることを実証的に検証した。
論文 参考訳(メタデータ) (2021-09-29T06:38:39Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。
我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。
画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-11-24T09:28:53Z) - Adam with Bandit Sampling for Deep Learning [18.033149110113378]
我々は、異なるトレーニング例に適応できるAdambsと呼ばれるAdamの一般化を提案する。
様々なモデルとデータセットの実験は、実際にアダムスの高速収束を実証している。
論文 参考訳(メタデータ) (2020-10-24T21:01:26Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。