論文の概要: SGD Generalizes Better Than GD (And Regularization Doesn't Help)
- arxiv url: http://arxiv.org/abs/2102.01117v1
- Date: Mon, 1 Feb 2021 19:18:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-03 16:34:19.503781
- Title: SGD Generalizes Better Than GD (And Regularization Doesn't Help)
- Title(参考訳): SGDがGDよりも一般化(正規化は役に立たない)
- Authors: Idan Amir, Tomer Koren, Roi Livni
- Abstract要約: 我々は、勾配勾配(SGD)の一般化性能と全バッチ勾配(GD)の分離結果を与える。
同じステップ数で、GD はオーバーフィットし、$Omega(1)$ generalization error で解を出力することを示した。
本稿では,GDによる経験的リスクの最小化が,基本的には上記の結果を変えるものではないことを論じ,安定性,暗黙バイアス,一般化における学習アルゴリズムの役割を再考する。
- 参考スコア(独自算出の注目度): 39.588906680621825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We give a new separation result between the generalization performance of
stochastic gradient descent (SGD) and of full-batch gradient descent (GD) in
the fundamental stochastic convex optimization model. While for SGD it is
well-known that $O(1/\epsilon^2)$ iterations suffice for obtaining a solution
with $\epsilon$ excess expected risk, we show that with the same number of
steps GD may overfit and emit a solution with $\Omega(1)$ generalization error.
Moreover, we show that in fact $\Omega(1/\epsilon^4)$ iterations are necessary
for GD to match the generalization performance of SGD, which is also tight due
to recent work by Bassily et al. (2020). We further discuss how regularizing
the empirical risk minimized by GD essentially does not change the above
result, and revisit the concepts of stability, implicit bias and the role of
the learning algorithm in generalization.
- Abstract(参考訳): 基本確率凸最適化モデルにおける確率勾配降下(SGD)とフルバッチ勾配降下(GD)の一般化性能との間に新たな分離結果を与える。
SGD の場合、$O(1/\epsilon^2)$ 反復は$\epsilon$ 過剰な予測リスクを持つ解を得るのに十分であることが知られているが、同じステップ数で GD がオーバーフィットし、$\Omega(1)$ 一般化誤差を持つ解を出力できることが示されている。
さらに,近年のbassily et alによる研究により,sgdの一般化性能に適合するために,実のところ$\omega(1/\epsilon^4)$イテレーションが必要であることを示した。
(2020).
さらに,gdによって最小化される経験的リスクの正則化は,上記の結果に本質的に変化せず,安定性,暗黙的バイアス,一般化における学習アルゴリズムの役割について再検討する。
関連論文リスト
- The Dimension Strikes Back with Gradients: Generalization of Gradient
Methods in Stochastic Convex Optimization [30.26365073195728]
基本凸最適化設定における勾配法の一般化性能について検討する。
同様の構成手法を適用すると、SGDのサンプル複雑性に対して同様の$Omega(sqrtd)$ローバウンドが得られ、非自明な経験的誤差に達することが示される。
論文 参考訳(メタデータ) (2024-01-22T15:50:32Z) - On the Trajectories of SGD Without Replacement [0.0]
本稿では,グラディエントDescence(SGD)の暗黙的正則化効果について検討する。
我々は、大規模なニューラルネットワークを最適化するために一般的に使用される変種である、置換のないSGDの場合を考える。
論文 参考訳(メタデータ) (2023-12-26T18:06:48Z) - Implicit Regularization or Implicit Conditioning? Exact Risk
Trajectories of SGD in High Dimensions [26.782342518986503]
勾配降下(SGD)は現代の機械学習の柱であり、様々な問題に対するゴート最適化アルゴリズムとして機能している。
HSGD形式をストリーミングSGDに適合させる方法を示し、ストリーミングSGDと比較してマルチパスSGDの過大なリスクを正確に予測できることを示す。
論文 参考訳(メタデータ) (2022-06-15T02:32:26Z) - Risk Bounds of Multi-Pass SGD for Least Squares in the Interpolation
Regime [127.21287240963859]
勾配降下(SGD)は最適化と一般化の両方において優れた性能を持つため、大きな成功を収めている。
本稿では,マルチパスSGDの一般化を強く特徴付けることを目的とする。
我々は,SGDが同じレベルの過剰リスクを達成するためには,GD以上を必要とするが,勾配評価の回数を削減できることを示した。
論文 参考訳(メタデータ) (2022-03-07T06:34:53Z) - Benign Underfitting of Stochastic Gradient Descent [72.38051710389732]
本研究では,適切な学習データを得ることで,一般化性能を実現する「従来型」学習ルールとして,勾配降下度(SGD)がどの程度理解されるかを検討する。
類似現象が起こらない近縁な交換SGDを解析し、その集団リスクが実際に最適な速度で収束することを証明する。
論文 参考訳(メタデータ) (2022-02-27T13:25:01Z) - The Benefits of Implicit Regularization from SGD in Least Squares
Problems [116.85246178212616]
勾配降下(SGD)はアルゴリズム正則化効果が強い。
我々は、(正規化されていない)平均SGDで得られる暗黙の正則化とリッジ回帰の明示的な正則化の比較を行う。
論文 参考訳(メタデータ) (2021-08-10T09:56:47Z) - SGD: The Role of Implicit Regularization, Batch-size and Multiple-epochs [30.41773138781369]
本稿では,現実に一般的に用いられているグラディエント・ディファイス(SGD)のマルチエポックな変種について述べる。
最悪の場合、これはシングルパスSGDと同程度であることを示す。
SCOの特定の問題に対して、データセットに複数のパスを取ることは、シングルパスSGDを著しく上回る。
論文 参考訳(メタデータ) (2021-07-11T15:50:01Z) - Label Noise SGD Provably Prefers Flat Global Minimizers [48.883469271546076]
過度パラメータ化モデルでは、勾配降下(SGD)のノイズは最適化軌道を暗黙的に規則化し、どの局所最小SGDが収束するかを決定する。
ラベルノイズを持つSGDが正規化損失$L(theta) +lambda R(theta)$の定常点に収束することを示す。
解析の結果,線形スケーリング法則を超越した大規模学習率の正規化効果が明らかとなった。
論文 参考訳(メタデータ) (2021-06-11T17:59:07Z) - Stability of Stochastic Gradient Descent on Nonsmooth Convex Losses [52.039438701530905]
任意のリプシッツ非平滑凸損失に対して,数種類の勾配勾配降下(SGD)に対して,鋭い上下境界を与える。
我々の限界は、極端に過剰な集団リスクを伴う、微分的にプライベートな非平滑凸最適化のための新しいアルゴリズムを導出することを可能にする。
論文 参考訳(メタデータ) (2020-06-12T02:45:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。