論文の概要: Open Problem: Anytime Convergence Rate of Gradient Descent
- arxiv url: http://arxiv.org/abs/2406.13888v1
- Date: Wed, 19 Jun 2024 23:34:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 17:56:22.014560
- Title: Open Problem: Anytime Convergence Rate of Gradient Descent
- Title(参考訳): オープンな問題: グラディエントDescentのコンバージェンスレート
- Authors: Guy Kornowski, Ohad Shamir,
- Abstract要約: また, ベニラ勾配降下は, 段差列を変化させることで, 滑らかな凸目標に対して加速可能であることを示す。
古典的な$mathcalO (1/T)$収束率を加速する勾配降下の段階的なスケジュールは、幻の停止時間$T$で存在するか?
- 参考スコア(独自算出の注目度): 37.300102993926046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent results show that vanilla gradient descent can be accelerated for smooth convex objectives, merely by changing the stepsize sequence. We show that this can lead to surprisingly large errors indefinitely, and therefore ask: Is there any stepsize schedule for gradient descent that accelerates the classic $\mathcal{O}(1/T)$ convergence rate, at \emph{any} stopping time $T$?
- Abstract(参考訳): 近年の研究では、ベニラ勾配降下は、単に段差列を変更するだけで、滑らかな凸目標に対して加速できることが示されている。
古典的な$\mathcal{O}(1/T)$ convergence rate, at \emph{any} stop time $T$?
関連論文リスト
- Large Stepsize Gradient Descent for Logistic Loss: Non-Monotonicity of the Loss Improves Optimization Efficiency [47.8739414267201]
線形分離可能なデータを用いたロジスティック回帰に一定の段差を持つ勾配降下(GD)を考える。
GD はこの初期振動位相を急速に終了し、$mathcalO(eta)$ steps となり、その後$tildemathcalO (1 / (eta t) )$ convergence rate が得られることを示す。
我々の結果は、予算が$T$ ステップであれば、GD は攻撃的なステップサイズで $tildemathcalO (1/T2)$ の加速損失を達成できることを示している。
論文 参考訳(メタデータ) (2024-02-24T23:10:28Z) - Provably Faster Gradient Descent via Long Steps [0.0]
短期的な目的値を増加させる長いステップは、長期的収束を確実に速くすることを示す。
勾配降下のより高速な$O(1/Tlog T)$レートを証明するための予想も、単純な数値検証と共に動機付けられる。
論文 参考訳(メタデータ) (2023-07-12T17:41:07Z) - Gradient Norm Minimization of Nesterov Acceleration: $o(1/k^3)$ [6.53306151979817]
ネステロフの加速勾配降下(NAG)は、一階アルゴリズムのマイルストーンの1つである。
本稿では, 高精度な観測と, より厳密な不等式に基づく, より単純化された証明を提案する。
論文 参考訳(メタデータ) (2022-09-19T09:10:35Z) - High-probability Bounds for Non-Convex Stochastic Optimization with
Heavy Tails [55.561406656549686]
我々は、勾配推定が末尾を持つ可能性のある一階アルゴリズムを用いたヒルベルト非最適化を考える。
本研究では, 勾配, 運動量, 正規化勾配勾配の収束を高確率臨界点に収束させることと, 円滑な損失に対する最もよく知られた繰り返しを示す。
論文 参考訳(メタデータ) (2021-06-28T00:17:01Z) - Escape saddle points faster on manifolds via perturbed Riemannian
stochastic recursive gradient [36.79189106909088]
我々のアルゴリズムは、勾配を求めるために$widetildemathcalObig( frac sqrtnepsilon2 + fracsqrtn delta4 + fracndelta3big)$グラデーションクエリを必要とする。
さらに$widetildemathcalObig( frac1epsilon3 +)の複雑さも提供します。
論文 参考訳(メタデータ) (2020-10-23T06:41:56Z) - On the Almost Sure Convergence of Stochastic Gradient Descent in
Non-Convex Problems [75.58134963501094]
本稿では,勾配降下(SGD)の軌跡を解析する。
我々はSGDが厳格なステップサイズポリシーのために1ドルでサドルポイント/マニフォールドを避けることを示す。
論文 参考訳(メタデータ) (2020-06-19T14:11:26Z) - Carath\'eodory Sampling for Stochastic Gradient Descent [79.55586575988292]
本稿では,Tchakaloff と Carath'eodory の古典的な結果から着想を得た手法を提案する。
我々は、測定値の低減を行う降下ステップを適応的に選択する。
これをBlock Coordinate Descentと組み合わせることで、測定の削減を極めて安価に行えるようにします。
論文 参考訳(メタデータ) (2020-06-02T17:52:59Z) - A Simple Convergence Proof of Adam and Adagrad [74.24716715922759]
我々はAdam Adagradと$O(d(N)/st)$アルゴリズムの収束の証明を示す。
Adamはデフォルトパラメータで使用する場合と同じ収束$O(d(N)/st)$で収束する。
論文 参考訳(メタデータ) (2020-03-05T01:56:17Z) - Learning Unitaries by Gradient Descent [12.354076490479516]
我々は、交互列の時間パラメータの勾配勾配から$Ud)$でユニタリ変換を学習する。
勾配$パラメータが少ない場合、勾配降下は準最適解に収束するが、$d2$パラメータ以上の場合、勾配降下は最適解に収束する。
論文 参考訳(メタデータ) (2020-01-31T15:20:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。