論文の概要: On the $O(\frac{\sqrt{d}}{T^{1/4}})$ Convergence Rate of RMSProp and Its
Momentum Extension Measured by $\ell_1$ Norm: Better Dependence on the
Dimension
- arxiv url: http://arxiv.org/abs/2402.00389v1
- Date: Thu, 1 Feb 2024 07:21:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 16:15:05.093730
- Title: On the $O(\frac{\sqrt{d}}{T^{1/4}})$ Convergence Rate of RMSProp and Its
Momentum Extension Measured by $\ell_1$ Norm: Better Dependence on the
Dimension
- Title(参考訳): O(\frac{\sqrt{d}}{T^{1/4}})$RMSPropの収束率とそのモメンタム拡張について : $\ell_1$ Norm: Better Dependence on the Dimension
- Authors: Huan Li and Zhouchen Lin
- Abstract要約: 本稿では古典的RMSPropPropとその運動量拡張について考察する。
これにより$frac1Tsum_k=1Teleft[|nabla f(xk)|_1right]leq O(fracsqrtdT1/4)$が$ell_$ノルムで測定される。
- 参考スコア(独自算出の注目度): 70.4788692766068
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although adaptive gradient methods have been extensively used in deep
learning, their convergence rates have not been thoroughly studied,
particularly with respect to their dependence on the dimension. This paper
considers the classical RMSProp and its momentum extension and establishes the
convergence rate of $\frac{1}{T}\sum_{k=1}^TE\left[\|\nabla
f(x^k)\|_1\right]\leq O(\frac{\sqrt{d}}{T^{1/4}})$ measured by $\ell_1$ norm
without the bounded gradient assumption, where $d$ is the dimension of the
optimization variable and $T$ is the iteration number. Since
$\|x\|_2\ll\|x\|_1\leq\sqrt{d}\|x\|_2$ for problems with extremely large $d$,
our convergence rate can be considered to be analogous to the
$\frac{1}{T}\sum_{k=1}^TE\left[\|\nabla f(x^k)\|_2\right]\leq
O(\frac{1}{T^{1/4}})$ one of SGD measured by $\ell_1$ norm.
- Abstract(参考訳): 適応勾配法は深層学習において広く用いられているが、その収束速度は特にその次元への依存に関して完全には研究されていない。
本稿では、古典的 RMSProp とその運動量拡大を考察し、$\frac{1}{T}\sum_{k=1}^TE\left[\|\nabla f(x^k)\|_1\right]\leq O(\frac{\sqrt{d}}{T^{1/4}})$を有界勾配仮定なしで$\ell_1$ノルムで測定し、$d$ は最適化変数の次元であり、$T$ は反復数である。
$\|x\|_2\ll\|x\|_1\leq\sqrt{d}\|x\|_2$ が極端に大きい$d$の問題については、我々の収束率は$\frac{1}{T}\sum_{k=1}^TE\left[\|\nabla f(x^k)\|_2\right]\leq O(\frac{1}{T^{1/4}})$ $\ell_1$ノルムで測定されたSGDの1つに類似していると考えられる。
関連論文リスト
- Improved convergence rate of kNN graph Laplacians [11.93971616098517]
k$NNグラフの一般クラスで、グラフ親和性は$W_ij = epsilon-d/2 である。
制限多様体作用素に対する$k$NNグラフ Laplacian の点収束性を証明する。
論文 参考訳(メタデータ) (2024-10-30T17:01:00Z) - Measuring quantum relative entropy with finite-size effect [53.64687146666141]
相対エントロピー$D(rho|sigma)$を$sigma$が知られているときに推定する。
我々の推定器は次元$d$が固定されたときにCram'er-Rao型境界に達する。
論文 参考訳(メタデータ) (2024-06-25T06:07:20Z) - Convergence of a Normal Map-based Prox-SGD Method under the KL
Inequality [0.0]
我々は、$symbol$k$収束問題に対して、新しいマップベースのアルゴリズム(mathsfnorMtext-mathsfSGD$)を提案する。
論文 参考訳(メタデータ) (2023-05-10T01:12:11Z) - Sharper Convergence Guarantees for Asynchronous SGD for Distributed and
Federated Learning [77.22019100456595]
通信周波数の異なる分散計算作業者のトレーニングアルゴリズムを示す。
本研究では,より厳密な収束率を$mathcalO!!(sigma2-2_avg!)とする。
また,不均一性の項は,作業者の平均遅延によっても影響されることを示した。
論文 参考訳(メタデータ) (2022-06-16T17:10:57Z) - The ODE Method for Asymptotic Statistics in Stochastic Approximation and Reinforcement Learning [3.8098187557917464]
この論文は$d$-dimensional recursion approximation, $$theta_n+1=theta_n + alpha_n + 1 f(theta_n, Phi_n+1)に関するものである。
主な結果は、ドスカー・バラダン・リャプノフドリフト条件(DV3)の平均流とバージョンに関する追加条件の下で確立される。
a example is given where $f$ and $barf$ are linear in $theta$, and $Phi$ is a geometryal.
論文 参考訳(メタデータ) (2021-10-27T13:38:25Z) - Convergence Rate of the (1+1)-Evolution Strategy with Success-Based
Step-Size Adaptation on Convex Quadratic Functions [20.666734673282498]
1+1)-進化戦略(ES)と成功に基づくステップサイズ適応を一般凸二次関数で解析する。
1+1)-ES の収束速度は、一般凸二次函数上で明示的に厳密に導かれる。
論文 参考訳(メタデータ) (2021-03-02T09:03:44Z) - Private Stochastic Convex Optimization: Optimal Rates in $\ell_1$
Geometry [69.24618367447101]
対数要因まで $(varepsilon,delta)$-differently private の最適過剰人口損失は $sqrtlog(d)/n + sqrtd/varepsilon n.$ です。
損失関数がさらなる滑らかさの仮定を満たすとき、余剰損失は$sqrtlog(d)/n + (log(d)/varepsilon n)2/3で上界(対数因子まで)であることが示される。
論文 参考訳(メタデータ) (2021-03-02T06:53:44Z) - Accelerating Optimization and Reinforcement Learning with
Quasi-Stochastic Approximation [2.294014185517203]
本稿では、収束理論を準確率近似に拡張することを目的とする。
強化学習のためのグラデーションフリー最適化とポリシー勾配アルゴリズムへの応用について説明する。
論文 参考訳(メタデータ) (2020-09-30T04:44:45Z) - A Simple Convergence Proof of Adam and Adagrad [74.24716715922759]
我々はAdam Adagradと$O(d(N)/st)$アルゴリズムの収束の証明を示す。
Adamはデフォルトパラメータで使用する場合と同じ収束$O(d(N)/st)$で収束する。
論文 参考訳(メタデータ) (2020-03-05T01:56:17Z) - Curse of Dimensionality on Randomized Smoothing for Certifiable
Robustness [151.67113334248464]
我々は、他の攻撃モデルに対してスムースな手法を拡張することは困難であることを示す。
我々はCIFARに関する実験結果を示し,その理論を検証した。
論文 参考訳(メタデータ) (2020-02-08T22:02:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。