論文の概要: Generalization Bounds for Gradient Methods via Discrete and Continuous
- arxiv url: http://arxiv.org/abs/2205.13799v1
- Date: Fri, 27 May 2022 07:23:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-30 14:48:39.755692
- Title: Generalization Bounds for Gradient Methods via Discrete and Continuous
- Title(参考訳): 離散および連続 pre による勾配法の一般化境界
- Authors: Jian Li and Xuanyuan Luo
- Abstract要約: 次数$O(frac1n + fracL2nsum_t=1T(gamma_t/varepsilon_t)2)$の新たな高確率一般化境界を示す。
- 参考スコア(独自算出の注目度): 8.76346911214414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Proving algorithm-dependent generalization error bounds for gradient-type
optimization methods has attracted significant attention recently in learning
theory. However, most existing trajectory-based analyses require either
restrictive assumptions on the learning rate (e.g., fast decreasing learning
rate), or continuous injected noise (such as the Gaussian noise in Langevin
dynamics). In this paper, we introduce a new discrete data-dependent prior to
the PAC-Bayesian framework, and prove a high probability generalization bound
of order $O(\frac{1}{n}\cdot
\sum_{t=1}^T(\gamma_t/\varepsilon_t)^2\left\|{\mathbf{g}_t}\right\|^2)$ for
Floored GD (i.e. a version of gradient descent with precision level
$\varepsilon_t$), where $n$ is the number of training samples, $\gamma_t$ is
the learning rate at step $t$, $\mathbf{g}_t$ is roughly the difference of the
gradient computed using all samples and that using only prior samples.
$\left\|{\mathbf{g}_t}\right\|$ is upper bounded by and and typical much
smaller than the gradient norm $\left\|{\nabla f(W_t)}\right\|$. We remark that
our bound holds for nonconvex and nonsmooth scenarios. Moreover, our
theoretical results provide numerically favorable upper bounds of testing
errors (e.g., $0.037$ on MNIST). Using a similar technique, we can also obtain
new generalization bounds for certain variants of SGD. Furthermore, we study
the generalization bounds for gradient Langevin Dynamics (GLD). Using the same
framework with a carefully constructed continuous prior, we show a new high
probability generalization bound of order $O(\frac{1}{n} +
\frac{L^2}{n^2}\sum_{t=1}^T(\gamma_t/\sigma_t)^2)$ for GLD. The new $1/n^2$
rate is due to the concentration of the difference between the gradient of
training samples and that of the prior.
- Abstract(参考訳): 勾配型最適化法に対するアルゴリズム依存一般化誤差境界の証明は、近年、学習理論において大きな注目を集めている。
In this paper, we introduce a new discrete data-dependent prior to the PAC-Bayesian framework, and prove a high probability generalization bound of order $O(\frac{1}{n}\cdot \sum_{t=1}^T(\gamma_t/\varepsilon_t)^2\left\|{\mathbf{g}_t}\right\|^2)$ for Floored GD (i.e. a version of gradient descent with precision level $\varepsilon_t$), where $n$ is the number of training samples, $\gamma_t$ is the learning rate at step $t$, $\mathbf{g}_t$ is roughly the difference of the gradient computed using all samples and that using only prior samples.
\left\|{\mathbf{g}_t}\right\|$は上界であり、典型的な勾配ノルム$\left\|{\nabla f(w_t)}\right\|$よりも小さい。
さらに, 実験誤差の上限値(mnist の$0.037$など)を数値的に好意的に求めた。
注意深い連続前置を持つ同じフレームワークを用いて、gldに対して$o(\frac{1}{n} + \frac{l^2}{n^2}\sum_{t=1}^t(\gamma_t/\sigma_t)^2)$という新しい高確率一般化を示す。
- Nonconvex Stochastic Optimization under Heavy-Tailed Noises: Optimal Convergence without Gradient Clipping [21.865728815935665]
論文 参考訳(メタデータ) (2024-12-27T08:46:46Z) - Stable Minima Cannot Overfit in Univariate ReLU Networks: Generalization by Large Step Sizes [29.466981306355066]
論文 参考訳(メタデータ) (2024-06-10T22:57:27Z) - Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の勾配勾配勾配学習問題について検討する。
論文 参考訳(メタデータ) (2024-06-03T17:56:58Z) - Detection of Dense Subhypergraphs by Low-Degree Polynomials [72.4451045270967]
我々は、$Gr(n, n-beta)ハイパーグラフにおいて、植えた$Gr(ngamma, n-alpha)$ subhypergraphの存在を検出することを検討する。
論文 参考訳(メタデータ) (2023-04-17T10:38:08Z) - ReSQueing Parallel and Private Stochastic Convex Optimization [59.53297063174519]
本稿では,BFG凸最適化(SCO: Reweighted Query (ReSQue) 推定ツールを提案する。
論文 参考訳(メタデータ) (2023-01-01T18:51:29Z) - Making Progress Based on False Discoveries [14.505867475659274]
一般アナリスト(必ずしも勾配降下ではない)に対して、Omega (1/epsilon3)$サンプルが必要であることを示す。
第二に、オラクル上の特定の仮定の下では、勾配降下$tilde Omega (1/epsilon2.5)$サンプルが必要であることを示す。
論文 参考訳(メタデータ) (2022-04-19T11:17:10Z) - A first-order primal-dual method with adaptivity to local smoothness [64.62056765216386]
凸凹対象 $min_x max_y f(x) + langle Ax, yrangle - g*(y)$, ここで、$f$ は局所リプシッツ勾配を持つ凸関数であり、$g$ は凸かつ非滑らかである。
論文 参考訳(メタデータ) (2021-10-28T14:19:30Z) - What Happens after SGD Reaches Zero Loss? --A Mathematical Framework [35.31946061894308]
SGD(Gradient Descent)の暗黙のバイアスを理解することは、ディープラーニングにおける重要な課題の1つである。
本稿では、Katzenberger (1991) のアイデアを適応させることにより、そのような分析の一般的な枠組みを提供する。
1) a global analysis of the implicit bias for $eta-2$ steps, not to the local analysis of Blanc et al. (2020) that is only for $eta-1.6$ steps and (2) allowing any noise covariance。
論文 参考訳(メタデータ) (2021-10-13T17:50:46Z) - Accelerating Optimization and Reinforcement Learning with
Quasi-Stochastic Approximation [2.294014185517203]
論文 参考訳(メタデータ) (2020-09-30T04:44:45Z) - Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
論文 参考訳(メタデータ) (2020-05-29T07:20:35Z) - Differentially Quantized Gradient Methods [53.3186247068836]
微分量子化グラディエントDescence (DQ-GD) が$maxsigma_mathrmGD, rhon 2-R$の線形収縮係数を得ることを示す。
あるクラス内のアルゴリズムは$maxsigma_mathrmGD, 2-R$よりも早く収束できない。
論文 参考訳(メタデータ) (2020-02-06T20:40:53Z)