論文の概要: On the SDEs and Scaling Rules for Adaptive Gradient Algorithms
- arxiv url: http://arxiv.org/abs/2205.10287v1
- Date: Fri, 20 May 2022 16:39:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-23 18:04:53.455819
- Title: On the SDEs and Scaling Rules for Adaptive Gradient Algorithms
- Title(参考訳): 適応勾配アルゴリズムのSDEとスケーリング規則について
- Authors: Sadhika Malladi, Kaifeng Lyu, Abhishek Panigrahi, Sanjeev Arora
- Abstract要約: 微分方程式(SDE)としての勾配 Descent (SGD) の適用により、研究者は連続的な最適化軌道の研究の利点を享受できるようになった。
本稿では、RMSpropとAdamのSDE近似を導出し、理論上の正確性を保証するとともに、それらの適用性を検証する。
- 参考スコア(独自算出の注目度): 33.447546115621364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Approximating Stochastic Gradient Descent (SGD) as a Stochastic Differential
Equation (SDE) has allowed researchers to enjoy the benefits of studying a
continuous optimization trajectory while carefully preserving the stochasticity
of SGD. Analogous study of adaptive gradient methods, such as RMSprop and Adam,
has been challenging because there were no rigorously proven SDE approximations
for these methods. This paper derives the SDE approximations for RMSprop and
Adam, giving theoretical guarantees of their correctness as well as
experimental validation of their applicability to common large-scaling vision
and language settings. A key practical result is the derivation of a
$\textit{square root scaling rule}$ to adjust the optimization hyperparameters
of RMSprop and Adam when changing batch size, and its empirical validation in
deep learning settings.
- Abstract(参考訳): 確率微分方程式 (SDE) として確率勾配 Descent (SGD) を近似することで、研究者は連続的な最適化軌道の研究の恩恵を享受し、SGDの確率性を注意深く保存することができる。
RMSpropやAdamのような適応勾配法のアナロジー研究は、これらの手法に厳密に証明されたSDE近似がないため、困難である。
本稿では、RMSpropとAdamのSDE近似を導出し、それらの正確性の理論的保証と、一般的な大規模視覚と言語設定への適用性の実験的検証を与える。
重要な実用的な結果は、バッチサイズを変更するときにrmspropとadamの最適化ハイパーパラメータを調整するために$\textit{square root scaling rule}$の導出と、ディープラーニング環境での経験的検証である。
関連論文リスト
- Adaptive Methods through the Lens of SDEs: Theoretical Insights on the Role of Noise [15.535139686653611]
本研究は, SignSGD, RMSprop(W), Adam(W) という適応適応型の新しいSDEを紹介する。
これらのSDEは、これらを定量的に正確に記述し、適応性、曲率ノイズ、勾配の間の複雑な関係を照らすのに役立つ。
私たちのアプローチは、ベストプラクティスや新しいスケーリングルールに関する貴重な洞察を提供できると考えています。
論文 参考訳(メタデータ) (2024-11-24T19:07:31Z) - Non-asymptotic Analysis of Biased Adaptive Stochastic Approximation [0.8192907805418583]
偏りのある勾配は滑らかな非函数に対する臨界点に収束することを示す。
適切なチューニングを行うことで,バイアスの効果を低減できることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:17:36Z) - Private Adaptive Gradient Methods for Convex Optimization [32.3523019355048]
適応的なステップサイズを持つグラディエント Descent (SGD) アルゴリズムの差分プライベート変種を提案・解析する。
両アルゴリズムの後悔に関する上限を与え、その境界が最適であることを示す。
論文 参考訳(メタデータ) (2021-06-25T16:46:45Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - Bayesian Sparse learning with preconditioned stochastic gradient MCMC
and its applications [5.660384137948734]
提案アルゴリズムは, 温和な条件下で, 制御可能なバイアスで正しい分布に収束する。
提案アルゴリズムは, 温和な条件下で, 制御可能なバイアスで正しい分布に収束可能であることを示す。
論文 参考訳(メタデータ) (2020-06-29T20:57:20Z) - Private Stochastic Non-Convex Optimization: Adaptive Algorithms and
Tighter Generalization Bounds [72.63031036770425]
有界非次元最適化のための差分プライベート(DP)アルゴリズムを提案する。
標準勾配法に対する経験的優位性について,2つの一般的なディープラーニング手法を実証する。
論文 参考訳(メタデータ) (2020-06-24T06:01:24Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z) - Stochastic Normalizing Flows [52.92110730286403]
微分方程式(SDE)を用いた最大推定と変分推論のための正規化フロー(VI)を導入する。
粗い経路の理論を用いて、基礎となるブラウン運動は潜在変数として扱われ、近似され、神経SDEの効率的な訓練を可能にする。
これらのSDEは、与えられたデータセットの基盤となる分布からサンプリングする効率的なチェーンを構築するために使用することができる。
論文 参考訳(メタデータ) (2020-02-21T20:47:55Z) - On the Convergence of Adaptive Gradient Methods for Nonconvex Optimization [80.03647903934723]
我々は、勾配収束法を期待する適応勾配法を証明した。
解析では、非理解勾配境界の最適化において、より適応的な勾配法に光を当てた。
論文 参考訳(メタデータ) (2018-08-16T20:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。