論文の概要: Risk Bounds of Multi-Pass SGD for Least Squares in the Interpolation
Regime
- arxiv url: http://arxiv.org/abs/2203.03159v1
- Date: Mon, 7 Mar 2022 06:34:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 15:58:52.530333
- Title: Risk Bounds of Multi-Pass SGD for Least Squares in the Interpolation
Regime
- Title(参考訳): 補間規則における最小方形に対するマルチパスSGDのリスク境界
- Authors: Difan Zou and Jingfeng Wu and Vladimir Braverman and Quanquan Gu and
Sham M. Kakade
- Abstract要約: 勾配降下(SGD)は最適化と一般化の両方において優れた性能を持つため、大きな成功を収めている。
本稿では,マルチパスSGDの一般化を強く特徴付けることを目的とする。
我々は,SGDが同じレベルの過剰リスクを達成するためには,GD以上を必要とするが,勾配評価の回数を削減できることを示した。
- 参考スコア(独自算出の注目度): 127.21287240963859
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic gradient descent (SGD) has achieved great success due to its
superior performance in both optimization and generalization. Most of existing
generalization analyses are made for single-pass SGD, which is a less practical
variant compared to the commonly-used multi-pass SGD. Besides, theoretical
analyses for multi-pass SGD often concern a worst-case instance in a class of
problems, which may be pessimistic to explain the superior generalization
ability for some particular problem instance. The goal of this paper is to
sharply characterize the generalization of multi-pass SGD, by developing an
instance-dependent excess risk bound for least squares in the interpolation
regime, which is expressed as a function of the iteration number, stepsize, and
data covariance. We show that the excess risk of SGD can be exactly decomposed
into the excess risk of GD and a positive fluctuation error, suggesting that
SGD always performs worse, instance-wisely, than GD, in generalization. On the
other hand, we show that although SGD needs more iterations than GD to achieve
the same level of excess risk, it saves the number of stochastic gradient
evaluations, and therefore is preferable in terms of computational time.
- Abstract(参考訳): 確率勾配降下 (sgd) は最適化と一般化の両方において優れた性能を持つため、大きな成功を収めている。
既存の一般化分析のほとんどは、一般的に使用されるマルチパスsgdに比べて実用的でないsgd用である。
さらに、マルチパスSGDの理論解析は、ある特定の問題に対して優れた一般化能力を説明するのに悲観的な問題群における最悪の事例をしばしば扱う。
本研究の目的は,反復数,ステップサイズ,データ共分散の関数として表される補間系において,最小二乗のインスタンス依存過剰リスクを開発することで,マルチパスSGDの一般化を著しく特徴付けることである。
sgd の過剰なリスクは gd の過剰なリスクと正のゆらぎ誤差に正確に分解され、一般化において sgd が常に gd よりもインスタンス的に悪い結果をもたらすことを示唆する。
一方,SGDは,同じリスクレベルを達成するためにGDよりも多くのイテレーションを必要とするが,確率的勾配評価の回数を減らし,計算時間の観点からも好適であることを示す。
関連論文リスト
- Risk Bounds of Accelerated SGD for Overparameterized Linear Regression [75.27846230182885]
加速度勾配降下(ASGD)は、深層学習におけるワークホースである。
既存の最適化理論は、ASGDのより高速な収束を説明することしかできないが、より優れた一般化を説明することはできない。
論文 参考訳(メタデータ) (2023-11-23T23:02:10Z) - Implicit Regularization or Implicit Conditioning? Exact Risk
Trajectories of SGD in High Dimensions [26.782342518986503]
勾配降下(SGD)は現代の機械学習の柱であり、様々な問題に対するゴート最適化アルゴリズムとして機能している。
HSGD形式をストリーミングSGDに適合させる方法を示し、ストリーミングSGDと比較してマルチパスSGDの過大なリスクを正確に予測できることを示す。
論文 参考訳(メタデータ) (2022-06-15T02:32:26Z) - Benign Underfitting of Stochastic Gradient Descent [72.38051710389732]
本研究では,適切な学習データを得ることで,一般化性能を実現する「従来型」学習ルールとして,勾配降下度(SGD)がどの程度理解されるかを検討する。
類似現象が起こらない近縁な交換SGDを解析し、その集団リスクが実際に最適な速度で収束することを証明する。
論文 参考訳(メタデータ) (2022-02-27T13:25:01Z) - Last Iterate Risk Bounds of SGD with Decaying Stepsize for
Overparameterized Linear Regression [122.70478935214128]
勾配降下(SGD)は、多くのディープラーニングアプリケーションでよく一般化されている。
本稿では, 崩壊段階のSGDの最終反復リスク境界に関する問題依存解析を行う。
論文 参考訳(メタデータ) (2021-10-12T17:49:54Z) - The Benefits of Implicit Regularization from SGD in Least Squares
Problems [116.85246178212616]
勾配降下(SGD)はアルゴリズム正則化効果が強い。
我々は、(正規化されていない)平均SGDで得られる暗黙の正則化とリッジ回帰の明示的な正則化の比較を行う。
論文 参考訳(メタデータ) (2021-08-10T09:56:47Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - SGD Generalizes Better Than GD (And Regularization Doesn't Help) [39.588906680621825]
我々は、勾配勾配(SGD)の一般化性能と全バッチ勾配(GD)の分離結果を与える。
同じステップ数で、GD はオーバーフィットし、$Omega(1)$ generalization error で解を出力することを示した。
本稿では,GDによる経験的リスクの最小化が,基本的には上記の結果を変えるものではないことを論じ,安定性,暗黙バイアス,一般化における学習アルゴリズムの役割を再考する。
論文 参考訳(メタデータ) (2021-02-01T19:18:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。