論文の概要: Improving Implicit Regularization of SGD with Preconditioning for Least Square Problems
- arxiv url: http://arxiv.org/abs/2403.08585v3
- Date: Sun, 26 May 2024 06:17:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 06:36:16.088356
- Title: Improving Implicit Regularization of SGD with Preconditioning for Least Square Problems
- Title(参考訳): 最小二乗問題に対するプレコンディショニングによるSGDの帰納規則化の改善
- Authors: Junwei Su, Difan Zou, Chuan Wu,
- Abstract要約: 最小二乗問題に対する事前条件付き勾配降下(SGD)の一般化性能について検討した。
提案したプレコンディショニング行列は有限標本からのロバストな推定が可能なほど単純であることを示す。
- 参考スコア(独自算出の注目度): 19.995877680083105
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stochastic gradient descent (SGD) exhibits strong algorithmic regularization effects in practice and plays an important role in the generalization of modern machine learning. However, prior research has revealed instances where the generalization performance of SGD is worse than ridge regression due to uneven optimization along different dimensions. Preconditioning offers a natural solution to this issue by rebalancing optimization across different directions. Yet, the extent to which preconditioning can enhance the generalization performance of SGD and whether it can bridge the existing gap with ridge regression remains uncertain. In this paper, we study the generalization performance of SGD with preconditioning for the least squared problem. We make a comprehensive comparison between preconditioned SGD and (standard \& preconditioned) ridge regression. Our study makes several key contributions toward understanding and improving SGD with preconditioning. First, we establish excess risk bounds (generalization performance) for preconditioned SGD and ridge regression under an arbitrary preconditions matrix. Second, leveraging the excessive risk characterization of preconditioned SGD and ridge regression, we show that (through construction) there exists a simple preconditioned matrix that can make SGD comparable to (standard \& preconditioned) ridge regression. Finally, we show that our proposed preconditioning matrix is straightforward enough to allow robust estimation from finite samples while maintaining a theoretical improvement. Our empirical results align with our theoretical findings, collectively showcasing the enhanced regularization effect of preconditioned SGD.
- Abstract(参考訳): 確率勾配降下 (SGD) はアルゴリズムの正則化効果が強く、現代の機械学習の一般化において重要な役割を果たしている。
しかし、従来の研究では、SGDの一般化性能が、異なる次元に沿った不均一な最適化のため、リッジ回帰よりも悪いことが判明している。
プレコンディショニングは、最適化を異なる方向に再バランスすることで、この問題に自然な解決策を提供する。
しかし, プレコンディショニングによってSGDの一般化性能が向上し, 既存の溝をリッジレグレッションで橋渡しできるかどうかは不明である。
本稿では,最小二乗問題に対する事前条件付きSGDの一般化性能について検討する。
プレコンディション付きSGDと(標準 \&プレコンディション付き)リッジレグレッションの総合的な比較を行う。
本研究は,プレコンディショニングによるSGDの理解と改善にいくつかの重要な貢献をしている。
まず、任意の事前条件行列の下で事前条件付きSGDとリッジ回帰に対する過剰リスク境界(一般化性能)を確立する。
第二に、プレコンディショニングされたSGDとリッジ回帰の過度なリスク特性を利用して、(構成を通して)SGDを(標準的な \&プレコンディショニングされた)リッジ回帰に匹敵する単純なプレコンディショニング行列が存在することを示す。
最後に,提案したプレコンディショニング行列は,理論的改善を維持しつつ,有限標本からのロバストな推定を可能にするほど単純であることを示す。
予備条件付きSGDの高次正則化効果を総合的に示し, 実験結果と理論的知見が一致した。
関連論文リスト
- Curvature-Informed SGD via General Purpose Lie-Group Preconditioners [6.760212042305871]
曲率情報を利用して勾配降下(SGD)を加速する新しい手法を提案する。
提案手法は,行列フリープレコンディショナーと低ランクプレコンディショナーの2つのプレコンディショナーを含む。
プレコンディショニングされたSGD(PSGD)は、ビジョン、NLP、RLタスクにおいてSoTAよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-07T03:18:00Z) - Risk Bounds of Accelerated SGD for Overparameterized Linear Regression [75.27846230182885]
加速度勾配降下(ASGD)は、深層学習におけるワークホースである。
既存の最適化理論は、ASGDのより高速な収束を説明することしかできないが、より優れた一般化を説明することはできない。
論文 参考訳(メタデータ) (2023-11-23T23:02:10Z) - Implicit Regularization or Implicit Conditioning? Exact Risk
Trajectories of SGD in High Dimensions [26.782342518986503]
勾配降下(SGD)は現代の機械学習の柱であり、様々な問題に対するゴート最適化アルゴリズムとして機能している。
HSGD形式をストリーミングSGDに適合させる方法を示し、ストリーミングSGDと比較してマルチパスSGDの過大なリスクを正確に予測できることを示す。
論文 参考訳(メタデータ) (2022-06-15T02:32:26Z) - Risk Bounds of Multi-Pass SGD for Least Squares in the Interpolation
Regime [127.21287240963859]
勾配降下(SGD)は最適化と一般化の両方において優れた性能を持つため、大きな成功を収めている。
本稿では,マルチパスSGDの一般化を強く特徴付けることを目的とする。
我々は,SGDが同じレベルの過剰リスクを達成するためには,GD以上を必要とするが,勾配評価の回数を削減できることを示した。
論文 参考訳(メタデータ) (2022-03-07T06:34:53Z) - Benign Underfitting of Stochastic Gradient Descent [72.38051710389732]
本研究では,適切な学習データを得ることで,一般化性能を実現する「従来型」学習ルールとして,勾配降下度(SGD)がどの程度理解されるかを検討する。
類似現象が起こらない近縁な交換SGDを解析し、その集団リスクが実際に最適な速度で収束することを証明する。
論文 参考訳(メタデータ) (2022-02-27T13:25:01Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - The Benefits of Implicit Regularization from SGD in Least Squares
Problems [116.85246178212616]
勾配降下(SGD)はアルゴリズム正則化効果が強い。
我々は、(正規化されていない)平均SGDで得られる暗黙の正則化とリッジ回帰の明示的な正則化の比較を行う。
論文 参考訳(メタデータ) (2021-08-10T09:56:47Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。