Fugu-MT 論文翻訳(概要): Convex SGD: Generalization Without Early Stopping

論文の概要: Convex SGD: Generalization Without Early Stopping

arxiv url: http://arxiv.org/abs/2401.04067v1
Date: Mon, 8 Jan 2024 18:10:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-09 13:51:30.596062
Title: Convex SGD: Generalization Without Early Stopping
Title（参考訳）: Convex SGD: 早期停止のない一般化
Authors: Julien Hendrickx and Alex Olshevsky
Abstract要約: まず、反復数$T$とデータセットサイズ$n$が任意の速度でゼロになるときに消滅する一般化誤差について示す。特に、勾配降下がうまく一般化するためには、強い凸性は必要ない。
参考スコア（独自算出の注目度）: 13.443445485815962
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider the generalization error associated with stochastic gradient descent on a smooth convex function over a compact set. We show the first bound on the generalization error that vanishes when the number of iterations $T$ and the dataset size $n$ go to zero at arbitrary rates; our bound scales as $\tilde{O}(1/\sqrt{T} + 1/\sqrt{n})$ with step-size $\alpha_t = 1/\sqrt{t}$. In particular, strong convexity is not needed for stochastic gradient descent to generalize well.
Abstract（参考訳）: コンパクトな集合上の滑らかな凸関数上の確率勾配降下に伴う一般化誤差を考察する。 1/\sqrt{t} + 1/\sqrt{n})$であり、ステップサイズ$\alpha_t = 1/\sqrt{t}$である。特に、確率的勾配降下がうまく一般化するには強い凸性は必要ない。

関連論文リスト

Almost Sure Convergence for the Last Iterate of Stochastic Gradient Descent Schemes [0.0]
定数運動量$beta in (0, 1)$(FFw_t) - F_* = O(tp-1)$ を目的に対してほぼ確実に証明する。また、(0, 1)$(FFw_t) - F_* = O(tp-1)$ の運動量を持つ Slog が目的に対してほぼ確実に成り立つことを証明している。
論文参考訳（メタデータ） (2025-07-09T20:59:23Z)
On the $O(\frac{\sqrt{d}}{T^{1/4}})$ Convergence Rate of RMSProp and Its Momentum Extension Measured by $\ell_1$ Norm [59.65871549878937]
本稿では、RMSPropとその運動量拡張を考察し、$frac1Tsum_k=1Tの収束速度を確立する。我々の収束率は、次元$d$を除くすべての係数に関して下界と一致する。収束率は$frac1Tsum_k=1Tと類似していると考えられる。
論文参考訳（メタデータ） (2024-02-01T07:21:32Z)
An Oblivious Stochastic Composite Optimization Algorithm for Eigenvalue Optimization Problems [76.2042837251496]
相補的な合成条件に基づく2つの難解なミラー降下アルゴリズムを導入する。注目すべきは、どちらのアルゴリズムも、目的関数のリプシッツ定数や滑らかさに関する事前の知識なしで機能する。本稿では,大規模半確定プログラム上での手法の効率性とロバスト性を示す。
論文参考訳（メタデータ） (2023-06-30T08:34:29Z)
ReSQueing Parallel and Private Stochastic Convex Optimization [59.53297063174519]
本稿では,BFG凸最適化(SCO: Reweighted Query (ReSQue) 推定ツールを提案する。我々はSCOの並列およびプライベート設定における最先端の複雑さを実現するアルゴリズムを開発した。
論文参考訳（メタデータ） (2023-01-01T18:51:29Z)
Optimal Extragradient-Based Bilinearly-Coupled Saddle-Point Optimization [116.89941263390769]
滑らかな凸凹凸結合型サドル点問題, $min_mathbfxmax_mathbfyF(mathbfx) + H(mathbfx,mathbfy)$ を考える。漸進的勾配指数(AG-EG)降下指数アルゴリズムについて述べる。
論文参考訳（メタデータ） (2022-06-17T06:10:20Z)
Generalization Bounds for Gradient Methods via Discrete and Continuous Prior [8.76346911214414]
次数$O(frac1n + fracL2nsum_t=1T(gamma_t/varepsilon_t)2)$の新たな高確率一般化境界を示す。また、あるSGDの変種に対する新しい境界を得ることもできる。
論文参考訳（メタデータ） (2022-05-27T07:23:01Z)
Thinking Outside the Ball: Optimal Learning with Gradient Descent for Generalized Linear Stochastic Convex Optimization [37.177329562964765]
我々は凸リプシッツ損失を伴う線形予測、あるいはより一般に一般化線型形式の凸最適化問題を考える。この設定では、初期反復が明示的な正規化や投影を伴わずにグラディエント Descent (GD) を停止し、過大なエラーを最大$epsilon$で保証することを示した。しかし、標準球における一様収束は、$Theta (1/epsilon4)$サンプルを用いた最適下界学習を保証できることを示しているが、分布依存球における一様収束に依存している。
論文参考訳（メタデータ） (2022-02-27T09:41:43Z)
A first-order primal-dual method with adaptivity to local smoothness [64.62056765216386]
凸凹対象 $min_x max_y f(x) + langle Ax, yrangle - g*(y)$, ここで、$f$ は局所リプシッツ勾配を持つ凸関数であり、$g$ は凸かつ非滑らかである。主勾配ステップと2段ステップを交互に交互に行うCondat-Vuアルゴリズムの適応バージョンを提案する。
論文参考訳（メタデータ） (2021-10-28T14:19:30Z)
On the Convergence of Step Decay Step-Size for Stochastic Optimization [27.02857082612736]
神経系の収束は、特にネットワーク問題などの非数学問題において、ステップサイズ率に大きく依存する。非スムース状態における崩壊の収束を提供し、勾配ノルムが消えることを保証する。強い凸の場合、$(T/ST)$レートを確立し、$(T/ST)$レートであることも証明します。
論文参考訳（メタデータ） (2021-02-18T14:37:25Z)
Last iterate convergence of SGD for Least-Squares in the Interpolation regime [19.05750582096579]
基本最小二乗構成におけるノイズレスモデルについて検討する。最適予測器が完全に入力に適合すると仮定し、$langletheta_*, phi(X) rangle = Y$, ここで$phi(X)$は無限次元の非線型特徴写像を表す。
論文参考訳（メタデータ） (2021-02-05T14:02:20Z)
Hybrid Stochastic-Deterministic Minibatch Proximal Gradient: Less-Than-Single-Pass Optimization with Nearly Optimal Generalization [83.80460802169999]
HSDMPGは、学習モデル上で過大なエラーの順序である$mathcalObig(1/sttnbig)$を達成可能であることを示す。損失係数について、HSDMPGは学習モデル上で過大なエラーの順序である$mathcalObig(1/sttnbig)$を達成できることを示す。
論文参考訳（メタデータ） (2020-09-18T02:18:44Z)
Gradient Methods Never Overfit On Separable Data [31.714928102950584]
標準勾配法は分離可能なデータに過度に適合しないことを示す。データセットに対するマージン違反数の非漸近的境界を示す。
論文参考訳（メタデータ） (2020-06-30T18:01:46Z)
A Simple Convergence Proof of Adam and Adagrad [74.24716715922759]
我々はAdam Adagradと$O(d(N)/st)$アルゴリズムの収束の証明を示す。 Adamはデフォルトパラメータで使用する場合と同じ収束$O(d(N)/st)$で収束する。
論文参考訳（メタデータ） (2020-03-05T01:56:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。