論文の概要: Generalization Bounds for Gradient Methods via Discrete and Continuous
Prior
- arxiv url: http://arxiv.org/abs/2205.13799v1
- Date: Fri, 27 May 2022 07:23:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-30 14:48:39.755692
- Title: Generalization Bounds for Gradient Methods via Discrete and Continuous
Prior
- Title(参考訳): 離散および連続 pre による勾配法の一般化境界
- Authors: Jian Li and Xuanyuan Luo
- Abstract要約: 次数$O(frac1n + fracL2nsum_t=1T(gamma_t/varepsilon_t)2)$の新たな高確率一般化境界を示す。
また、あるSGDの変種に対する新しい境界を得ることもできる。
- 参考スコア(独自算出の注目度): 8.76346911214414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Proving algorithm-dependent generalization error bounds for gradient-type
optimization methods has attracted significant attention recently in learning
theory. However, most existing trajectory-based analyses require either
restrictive assumptions on the learning rate (e.g., fast decreasing learning
rate), or continuous injected noise (such as the Gaussian noise in Langevin
dynamics). In this paper, we introduce a new discrete data-dependent prior to
the PAC-Bayesian framework, and prove a high probability generalization bound
of order $O(\frac{1}{n}\cdot
\sum_{t=1}^T(\gamma_t/\varepsilon_t)^2\left\|{\mathbf{g}_t}\right\|^2)$ for
Floored GD (i.e. a version of gradient descent with precision level
$\varepsilon_t$), where $n$ is the number of training samples, $\gamma_t$ is
the learning rate at step $t$, $\mathbf{g}_t$ is roughly the difference of the
gradient computed using all samples and that using only prior samples.
$\left\|{\mathbf{g}_t}\right\|$ is upper bounded by and and typical much
smaller than the gradient norm $\left\|{\nabla f(W_t)}\right\|$. We remark that
our bound holds for nonconvex and nonsmooth scenarios. Moreover, our
theoretical results provide numerically favorable upper bounds of testing
errors (e.g., $0.037$ on MNIST). Using a similar technique, we can also obtain
new generalization bounds for certain variants of SGD. Furthermore, we study
the generalization bounds for gradient Langevin Dynamics (GLD). Using the same
framework with a carefully constructed continuous prior, we show a new high
probability generalization bound of order $O(\frac{1}{n} +
\frac{L^2}{n^2}\sum_{t=1}^T(\gamma_t/\sigma_t)^2)$ for GLD. The new $1/n^2$
rate is due to the concentration of the difference between the gradient of
training samples and that of the prior.
- Abstract(参考訳): 勾配型最適化法に対するアルゴリズム依存一般化誤差境界の証明は、近年、学習理論において大きな注目を集めている。
しかし、既存の軌道に基づく分析のほとんどは、学習率(例えば、学習速度の速い減少)や連続的な注入ノイズ(ランジュバン力学におけるガウス雑音など)の制限的な仮定を必要とする。
In this paper, we introduce a new discrete data-dependent prior to the PAC-Bayesian framework, and prove a high probability generalization bound of order $O(\frac{1}{n}\cdot \sum_{t=1}^T(\gamma_t/\varepsilon_t)^2\left\|{\mathbf{g}_t}\right\|^2)$ for Floored GD (i.e. a version of gradient descent with precision level $\varepsilon_t$), where $n$ is the number of training samples, $\gamma_t$ is the learning rate at step $t$, $\mathbf{g}_t$ is roughly the difference of the gradient computed using all samples and that using only prior samples.
\left\|{\mathbf{g}_t}\right\|$は上界であり、典型的な勾配ノルム$\left\|{\nabla f(w_t)}\right\|$よりも小さい。
当社のバウンドは、非凸および非滑らかなシナリオに留まっています。
さらに, 実験誤差の上限値(mnist の$0.037$など)を数値的に好意的に求めた。
同様の手法を用いて、ある種のsgdに対する新しい一般化境界を得ることもできる。
さらに,勾配ランゲヴィンダイナミクス(GLD)の一般化境界について検討した。
注意深い連続前置を持つ同じフレームワークを用いて、gldに対して$o(\frac{1}{n} + \frac{l^2}{n^2}\sum_{t=1}^t(\gamma_t/\sigma_t)^2)$という新しい高確率一般化を示す。
新しい1/n^2$レートは、トレーニングサンプルの勾配と以前の値との差が集中しているためである。
関連論文リスト
- Stable Minima Cannot Overfit in Univariate ReLU Networks: Generalization by Large Step Sizes [29.466981306355066]
固定学習率$eta$の勾配降下はスムーズな関数を表す局所最小値しか見つからないことを示す。
また、$n$のデータポイントのサポートの厳密な内部で、$widetildeO(n-4/5)$のほぼ最適MSE境界を証明します。
論文 参考訳(メタデータ) (2024-06-10T22:57:27Z) - A Unified Framework for Uniform Signal Recovery in Nonlinear Generative
Compressed Sensing [68.80803866919123]
非線形測定では、ほとんどの先行結果は一様ではない、すなわち、すべての$mathbfx*$に対してではなく、固定された$mathbfx*$に対して高い確率で保持される。
本フレームワークはGCSに1ビット/一様量子化観測と単一インデックスモデルを標準例として適用する。
また、指標集合が計量エントロピーが低い製品プロセスに対して、より厳密な境界を生み出す濃度不等式も開発する。
論文 参考訳(メタデータ) (2023-09-25T17:54:19Z) - Detection of Dense Subhypergraphs by Low-Degree Polynomials [72.4451045270967]
ランダムグラフにおける植込み高密度部分グラフの検出は、基本的な統計的および計算上の問題である。
我々は、$Gr(n, n-beta)ハイパーグラフにおいて、植えた$Gr(ngamma, n-alpha)$ subhypergraphの存在を検出することを検討する。
平均値の減少に基づく硬さが不明な微妙な対数密度構造を考えると,この結果はグラフの場合$r=2$で既に新しくなっている。
論文 参考訳(メタデータ) (2023-04-17T10:38:08Z) - ReSQueing Parallel and Private Stochastic Convex Optimization [59.53297063174519]
本稿では,BFG凸最適化(SCO: Reweighted Query (ReSQue) 推定ツールを提案する。
我々はSCOの並列およびプライベート設定における最先端の複雑さを実現するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-01-01T18:51:29Z) - Making Progress Based on False Discoveries [14.505867475659274]
本稿では,凸最適化の枠組みにおける適応データ解析の課題について考察する。
一般アナリスト(必ずしも勾配降下ではない)に対して、Omega (1/epsilon3)$サンプルが必要であることを示す。
第二に、オラクル上の特定の仮定の下では、勾配降下$tilde Omega (1/epsilon2.5)$サンプルが必要であることを示す。
論文 参考訳(メタデータ) (2022-04-19T11:17:10Z) - A first-order primal-dual method with adaptivity to local smoothness [64.62056765216386]
凸凹対象 $min_x max_y f(x) + langle Ax, yrangle - g*(y)$, ここで、$f$ は局所リプシッツ勾配を持つ凸関数であり、$g$ は凸かつ非滑らかである。
主勾配ステップと2段ステップを交互に交互に行うCondat-Vuアルゴリズムの適応バージョンを提案する。
論文 参考訳(メタデータ) (2021-10-28T14:19:30Z) - What Happens after SGD Reaches Zero Loss? --A Mathematical Framework [35.31946061894308]
SGD(Gradient Descent)の暗黙のバイアスを理解することは、ディープラーニングにおける重要な課題の1つである。
本稿では、Katzenberger (1991) のアイデアを適応させることにより、そのような分析の一般的な枠組みを提供する。
1) a global analysis of the implicit bias for $eta-2$ steps, not to the local analysis of Blanc et al. (2020) that is only for $eta-1.6$ steps and (2) allowing any noise covariance。
論文 参考訳(メタデータ) (2021-10-13T17:50:46Z) - Accelerating Optimization and Reinforcement Learning with
Quasi-Stochastic Approximation [2.294014185517203]
本稿では、収束理論を準確率近似に拡張することを目的とする。
強化学習のためのグラデーションフリー最適化とポリシー勾配アルゴリズムへの応用について説明する。
論文 参考訳(メタデータ) (2020-09-30T04:44:45Z) - Fast Dimension Independent Private AdaGrad on Publicly Estimated
Subspaces [24.52697154861819]
AdaGradは、従来のAdaGradに匹敵する後悔と、ノイズによるよく制御された用語を達成していることを示す。
我々は制約付きおよび制約なしの最小化において一般凸関数で操作する。
論文 参考訳(メタデータ) (2020-08-14T20:46:38Z) - Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
期待される正方形損失から、最も適合した単一ニューロンを学習することの問題点を考察する。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
論文 参考訳(メタデータ) (2020-05-29T07:20:35Z) - Differentially Quantized Gradient Methods [53.3186247068836]
微分量子化グラディエントDescence (DQ-GD) が$maxsigma_mathrmGD, rhon 2-R$の線形収縮係数を得ることを示す。
あるクラス内のアルゴリズムは$maxsigma_mathrmGD, 2-R$よりも早く収束できない。
論文 参考訳(メタデータ) (2020-02-06T20:40:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。