論文の概要: Statistical Guarantees for High-Dimensional Stochastic Gradient Descent
- arxiv url: http://arxiv.org/abs/2510.12013v1
- Date: Mon, 13 Oct 2025 23:27:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.115944
- Title: Statistical Guarantees for High-Dimensional Stochastic Gradient Descent
- Title(参考訳): 高次元確率勾配の統計的保証
- Authors: Jiaqi Li, Zhipeng Lou, Johannes Schmidt-Hieber, Wei Biao Wu,
- Abstract要約: 定常学習速度SGDとASGDの高次元状態における厳密な統計的保証を提供する。
提案フレームワークは,多種多様な高次元学習アルゴリズムを解析するための新しいツールキットを提供する。
- 参考スコア(独自算出の注目度): 9.729147728224946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic Gradient Descent (SGD) and its Ruppert-Polyak averaged variant (ASGD) lie at the heart of modern large-scale learning, yet their theoretical properties in high-dimensional settings are rarely understood. In this paper, we provide rigorous statistical guarantees for constant learning-rate SGD and ASGD in high-dimensional regimes. Our key innovation is to transfer powerful tools from high-dimensional time series to online learning. Specifically, by viewing SGD as a nonlinear autoregressive process and adapting existing coupling techniques, we prove the geometric-moment contraction of high-dimensional SGD for constant learning rates, thereby establishing asymptotic stationarity of the iterates. Building on this, we derive the $q$-th moment convergence of SGD and ASGD for any $q\ge2$ in general $\ell^s$-norms, and, in particular, the $\ell^{\infty}$-norm that is frequently adopted in high-dimensional sparse or structured models. Furthermore, we provide sharp high-probability concentration analysis which entails the probabilistic bound of high-dimensional ASGD. Beyond closing a critical gap in SGD theory, our proposed framework offers a novel toolkit for analyzing a broad class of high-dimensional learning algorithms.
- Abstract(参考訳): Stochastic Gradient Descent (SGD) と Ruppert-Polyak averaged variant (ASGD) は現代の大規模学習の中心にあるが、高次元設定における理論的性質はほとんど理解されていない。
本稿では, 定常学習速度SGDとASGDの高次元状態における厳密な統計的保証について述べる。
私たちの重要なイノベーションは、強力なツールを高次元の時系列からオンライン学習に移行することです。
具体的には,SGDを非線形自己回帰過程とみなし,既存の結合手法を適応させることで,定常学習率の高次元SGDの幾何モーメント収縮を証明し,その漸近的定常性を確立する。
これに基づいて、SGD と ASGD の任意の$q\ge2$ に対する$q$-次モーメント収束を導出し、特に高次元スパースモデルや構造化モデルでよく用いられる $\ell^{\infty}$-ノルムを導出する。
さらに,高次元ASGDの確率的境界を含む高確率濃度解析を行う。
SGD理論における重要なギャップを埋める以外に、提案フレームワークは、幅広い高次元学習アルゴリズムを解析するための新しいツールキットを提供する。
関連論文リスト
- The Optimality of (Accelerated) SGD for High-Dimensional Quadratic Optimization [4.7256945641654164]
勾配降下(SGD)は機械学習、特にニューラルネットワークトレーニングにおいて広く使われているアルゴリズムである。
正準2次最適化や線形回帰のSGDに関する最近の研究は、適切な高次元設定で十分に一般化できることを示している。
本稿では,ステップサイズスケジュールと運動量指数の2つの基本成分を持つSGDについて検討する。
論文 参考訳(メタデータ) (2024-09-15T14:20:03Z) - Stochastic Gradient Descent outperforms Gradient Descent in recovering a
high-dimensional signal in a glassy energy landscape [4.73194777046253]
Gradient Descent (SGD) は、ニューラルネットワークのトレーニングに広く使われている平衡外アルゴリズムである。
SGD は GD よりも十分小さいバッチサイズで性能が優れていることを示す。
論文 参考訳(メタデータ) (2023-09-09T13:29:17Z) - Statistical Inference for Linear Functionals of Online SGD in High-dimensional Linear Regression [14.521929085104441]
勾配降下 (SGD) は、データ科学者のツールボックスにおいて重要な方法として登場した。
我々は,オンラインSGDの線形汎関数に対する高次元中心極限定理(CLT)を確立し,非等方的ガウス入力を用いた過度な最小二乗回帰を行う。
我々は,CLTに現れる分散項を推定するオンライン手法を開発し,開発したオンライン推定器の高確率バウンダリを確立する。
論文 参考訳(メタデータ) (2023-02-20T02:38:36Z) - NAG-GS: Semi-Implicit, Accelerated and Robust Stochastic Optimizer [45.47667026025716]
2つの重要な要素に依存した、新しく、堅牢で、加速された反復を提案する。
NAG-GSと呼ばれる手法の収束と安定性は、まず広範に研究されている。
我々は、NAG-arityが、重量減衰を伴う運動量SGDや機械学習モデルのトレーニングのためのAdamWといった最先端の手法と競合していることを示す。
論文 参考訳(メタデータ) (2022-09-29T16:54:53Z) - Benign Underfitting of Stochastic Gradient Descent [72.38051710389732]
本研究では,適切な学習データを得ることで,一般化性能を実現する「従来型」学習ルールとして,勾配降下度(SGD)がどの程度理解されるかを検討する。
類似現象が起こらない近縁な交換SGDを解析し、その集団リスクが実際に最適な速度で収束することを証明する。
論文 参考訳(メタデータ) (2022-02-27T13:25:01Z) - A general sample complexity analysis of vanilla policy gradient [101.16957584135767]
政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。
PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
論文 参考訳(メタデータ) (2021-07-23T19:38:17Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Stochastic Polyak Step-size for SGD: An Adaptive Learning Rate for Fast
Convergence [30.393999722555154]
本稿では,古典的ポリアクステップサイズ (Polyak, 1987) の亜次法でよく用いられる変種を提案する。
The proposed Polyak step-size (SPS) is a attractive choice for set the learning rate for gradient descent。
論文 参考訳(メタデータ) (2020-02-24T20:57:23Z) - On the Generalization of Stochastic Gradient Descent with Momentum [84.54924994010703]
運動量に基づく勾配降下(SGD)の加速変種は、機械学習モデルを訓練する際に広く用いられる。
まず,標準重球運動量(SGDM)を持つSGDの複数のエポックに対する安定性ギャップが非有界となる凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対しては、修正モーメントベースの更新規則、すなわち、幅広いステップサイズで初期運動量(SGDEM)を解析する。
論文 参考訳(メタデータ) (2018-09-12T17:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。