論文の概要: Theoretical analysis of Adam using hyperparameters close to one without
Lipschitz smoothness
- arxiv url: http://arxiv.org/abs/2206.13290v1
- Date: Mon, 27 Jun 2022 13:32:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 19:57:05.084562
- Title: Theoretical analysis of Adam using hyperparameters close to one without
Lipschitz smoothness
- Title(参考訳): リプシッツの滑らかさを伴わないハイパーパラメータを用いたアダムの理論解析
- Authors: Hideaki Iiduka
- Abstract要約: 適応モーメント推定(Adam)は,大きなサイズで良好に動作することを示す。
また、Adamは学習率の低下やハイパーパラメータが1に近い場合にもうまく機能することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Convergence and convergence rate analyses of adaptive methods, such as
Adaptive Moment Estimation (Adam) and its variants, have been widely studied
for nonconvex optimization. The analyses are based on assumptions that the
expected or empirical average loss function is Lipschitz smooth (i.e., its
gradient is Lipschitz continuous) and the learning rates depend on the
Lipschitz constant of the Lipschitz continuous gradient. Meanwhile, numerical
evaluations of Adam and its variants have clarified that using small constant
learning rates without depending on the Lipschitz constant and hyperparameters
($\beta_1$ and $\beta_2$) close to one is advantageous for training deep neural
networks. Since computing the Lipschitz constant is NP-hard, the Lipschitz
smoothness condition would be unrealistic. This paper provides theoretical
analyses of Adam without assuming the Lipschitz smoothness condition in order
to bridge the gap between theory and practice. The main contribution is to show
theoretical evidence that Adam using small learning rates and hyperparameters
close to one performs well, whereas the previous theoretical results were all
for hyperparameters close to zero. Our analysis also leads to the finding that
Adam performs well with large batch sizes. Moreover, we show that Adam performs
well when it uses diminishing learning rates and hyperparameters close to one.
- Abstract(参考訳): アダプティブモーメント推定(Adam)などの適応的手法の収束と収束率解析は、非凸最適化のために広く研究されている。
解析は、期待値または経験値の平均損失関数がリプシッツ滑らか(つまり、その勾配はリプシッツ連続)であり、学習率はリプシッツ連続勾配のリプシッツ定数に依存するという仮定に基づいている。
一方、adamとその変異体の数値評価では、リプシッツ定数やハイパーパラメータに依存することなく小さな定数学習率(\beta_1$と$\beta_2$)を使用することで、ディープニューラルネットワークのトレーニングに有利であることが示されている。
リプシッツ定数の計算はNPハードであるため、リプシッツの滑らかさ条件は非現実的である。
本稿では,理論と実践のギャップを埋めるため,リプシッツ平滑性条件を仮定せずにアダムの理論解析を行う。
主な貢献は、アダムが小さい学習率と1に近いハイパーパラメータを使用するという理論的な証拠を示すことであるが、以前の理論結果はいずれも0に近いハイパーパラメータについてであった。
私たちの分析は、Adamが大きなバッチサイズでうまく機能していることにもつながります。
さらに,Adamは学習率の低下やハイパーパラメータが1に近い場合,その性能がよいことを示す。
関連論文リスト
- Learning Lipschitz Operators with respect to Gaussian Measures with Near-Optimal Sample Complexity [1.037768322019687]
ガウス測度に関して,リプシッツ作用素の近似を期待して検討する。
鍵となる発見は、$m$という最小の達成可能な(適応的な)サンプリングと再構成マップの厳密な特徴づけである。
ほぼ最適サンプルの複雑性を確実に達成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-30T20:32:30Z) - Global Well-posedness and Convergence Analysis of Score-based Generative Models via Sharp Lipschitz Estimates [1.3124513975412255]
スコアベース生成モデル(SGM)のグローバルな適合性と収束性を確立する。
スムーズな場合、最適時間長のスコア関数のリプシッツ境界から始める。
最適性は、スコアのリプシッツ定数が初期で有界であるが有限時間で爆発する例によって検証される。
論文 参考訳(メタデータ) (2024-05-25T07:31:24Z) - High Probability Convergence of Adam Under Unbounded Gradients and
Affine Variance Noise [4.9495085874952895]
我々はAdamが高い確率で定常点に収束できることを示し、$mathcalOleft(rm poly(log T)/sqrtTright)$を座標ワイドな「アフィン」ノイズ分散の下で表す。
また、Adamの閉包は$mathcalOleft(rm poly(left T)right)$の順序でノイズレベルに適応していることも明らかにされている。
論文 参考訳(メタデータ) (2023-11-03T15:55:53Z) - Convergence of Adam Under Relaxed Assumptions [72.24779199744954]
我々は、アダムがより現実的な条件下で、$O(epsilon-4)$勾配複雑性で$epsilon$-定常点に収束することを示している。
また、Adamの分散還元版を$O(epsilon-3)$の加速勾配複雑性で提案する。
論文 参考訳(メタデータ) (2023-04-27T06:27:37Z) - Private Stochastic Optimization With Large Worst-Case Lipschitz Parameter [14.040676498310198]
我々は、全てのデータに対して最悪のリプシッツパラメータを持つ損失関数を持つ差分プライベート(DP)不等式最適化(SO)について検討する。
スムーズな損失関数に対して、我々は最先端の過剰リスクを持つ線形時間アルゴリズムを提供する。
また,非最適凸損失関数を扱う最初のアルゴリズムも提供する。
論文 参考訳(メタデータ) (2022-09-15T16:03:23Z) - Provable Adaptivity of Adam under Non-uniform Smoothness [79.25087082434975]
アダムは急速に収束するため、実用的な用途で広く採用されている。
アダムの既存の収束解析は、有界な滑らかさの仮定に依存する。
本稿では,ランダムにリシャッフルされたAdamの学習率の低下に伴う収束について検討する。
論文 参考訳(メタデータ) (2022-08-21T14:57:47Z) - Chordal Sparsity for Lipschitz Constant Estimation of Deep Neural
Networks [77.82638674792292]
ニューラルネットワークのリプシッツ定数は、画像分類の堅牢性、コントローラ設計の安全性、トレーニングデータを超えた一般化性を保証する。
リプシッツ定数の計算はNPハードであるため、リプシッツ定数を推定する手法はスケーラビリティと精度のトレードオフをナビゲートする必要がある。
本研究では,LipSDPと呼ばれる半定値プログラミング手法のスケーラビリティフロンティアを大幅に推し進め,精度の損失をゼロにする。
論文 参考訳(メタデータ) (2022-04-02T11:57:52Z) - A Novel Convergence Analysis for Algorithms of the Adam Family [105.22760323075008]
本稿ではAdam, AMSGrad, AdaboundなどのAdamスタイルの手法群に対する収束の一般的な証明を示す。
我々の分析は非常に単純で汎用的なので、より広範な非構成最適化問題の族を解くための収束を確立するために利用することができる。
論文 参考訳(メタデータ) (2021-12-07T02:47:58Z) - Robust Implicit Networks via Non-Euclidean Contractions [63.91638306025768]
暗黙のニューラルネットワークは、精度の向上とメモリ消費の大幅な削減を示す。
彼らは不利な姿勢と収束の不安定さに悩まされる。
本論文は,ニューラルネットワークを高機能かつ頑健に設計するための新しい枠組みを提供する。
論文 参考訳(メタデータ) (2021-06-06T18:05:02Z) - On Lipschitz Regularization of Convolutional Layers using Toeplitz
Matrix Theory [77.18089185140767]
リプシッツ正則性は現代のディープラーニングの重要な性質として確立されている。
ニューラルネットワークのリプシッツ定数の正確な値を計算することはNPハードであることが知られている。
より厳密で計算が容易な畳み込み層に対する新しい上限を導入する。
論文 参考訳(メタデータ) (2020-06-15T13:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。