論文の概要: Risk Bounds of Accelerated SGD for Overparameterized Linear Regression
- arxiv url: http://arxiv.org/abs/2311.14222v1
- Date: Thu, 23 Nov 2023 23:02:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 16:15:20.462045
- Title: Risk Bounds of Accelerated SGD for Overparameterized Linear Regression
- Title(参考訳): 過パラメータ線形回帰に対する加速SGDのリスク境界
- Authors: Xuheng Li and Yihe Deng and Jingfeng Wu and Dongruo Zhou and Quanquan
Gu
- Abstract要約: 加速度勾配降下(ASGD)は、深層学習におけるワークホースである。
既存の最適化理論は、ASGDのより高速な収束を説明することしかできないが、より優れた一般化を説明することはできない。
- 参考スコア(独自算出の注目度): 75.27846230182885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accelerated stochastic gradient descent (ASGD) is a workhorse in deep
learning and often achieves better generalization performance than SGD.
However, existing optimization theory can only explain the faster convergence
of ASGD, but cannot explain its better generalization. In this paper, we study
the generalization of ASGD for overparameterized linear regression, which is
possibly the simplest setting of learning with overparameterization. We
establish an instance-dependent excess risk bound for ASGD within each
eigen-subspace of the data covariance matrix. Our analysis shows that (i) ASGD
outperforms SGD in the subspace of small eigenvalues, exhibiting a faster rate
of exponential decay for bias error, while in the subspace of large
eigenvalues, its bias error decays slower than SGD; and (ii) the variance error
of ASGD is always larger than that of SGD. Our result suggests that ASGD can
outperform SGD when the difference between the initialization and the true
weight vector is mostly confined to the subspace of small eigenvalues.
Additionally, when our analysis is specialized to linear regression in the
strongly convex setting, it yields a tighter bound for bias error than the
best-known result.
- Abstract(参考訳): 加速度確率勾配降下(ASGD)は深層学習におけるワークホースであり、しばしばSGDよりも優れた一般化性能を達成する。
しかし、既存の最適化理論はASGDのより高速な収束しか説明できないが、より優れた一般化は説明できない。
本稿では,過パラメータ化による学習の最も簡単な設定である過パラメータ化線形回帰に対するasgdの一般化について検討する。
データ共分散行列の各固有部分空間内で、ASGDのインスタンス依存過剰リスクを定めている。
私たちの分析は
(i)ASGDは小さな固有値の部分空間においてSGDより優れ、バイアス誤差の指数的減衰の速度が速い一方、大きな固有値の部分空間では、そのバイアス誤差はSGDよりも遅い。
(ii) ASGD の分散誤差は SGD の分散誤差よりも常に大きい。
その結果,初期化と真の重みベクトルの差が小さい固有値の部分空間に限られている場合,ASGDはSGDより優れていることが示唆された。
さらに,本解析が強凸集合における線形回帰に特化すると,最もよく知られた結果よりもバイアス誤差に強く結びつく。
関連論文リスト
- Implicit Regularization or Implicit Conditioning? Exact Risk
Trajectories of SGD in High Dimensions [26.782342518986503]
勾配降下(SGD)は現代の機械学習の柱であり、様々な問題に対するゴート最適化アルゴリズムとして機能している。
HSGD形式をストリーミングSGDに適合させる方法を示し、ストリーミングSGDと比較してマルチパスSGDの過大なリスクを正確に予測できることを示す。
論文 参考訳(メタデータ) (2022-06-15T02:32:26Z) - Risk Bounds of Multi-Pass SGD for Least Squares in the Interpolation
Regime [127.21287240963859]
勾配降下(SGD)は最適化と一般化の両方において優れた性能を持つため、大きな成功を収めている。
本稿では,マルチパスSGDの一般化を強く特徴付けることを目的とする。
我々は,SGDが同じレベルの過剰リスクを達成するためには,GD以上を必要とするが,勾配評価の回数を削減できることを示した。
論文 参考訳(メタデータ) (2022-03-07T06:34:53Z) - The Benefits of Implicit Regularization from SGD in Least Squares
Problems [116.85246178212616]
勾配降下(SGD)はアルゴリズム正則化効果が強い。
我々は、(正規化されていない)平均SGDで得られる暗黙の正則化とリッジ回帰の明示的な正則化の比較を行う。
論文 参考訳(メタデータ) (2021-08-10T09:56:47Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - When Does Preconditioning Help or Hurt Generalization? [74.25170084614098]
本稿では,第1次および第2次手法のテキスト単純バイアスが一般化特性の比較にどのように影響するかを示す。
本稿では、バイアス分散トレードオフを管理するためのいくつかのアプローチと、GDとNGDを補間する可能性について論じる。
論文 参考訳(メタデータ) (2020-06-18T17:57:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。