論文の概要: Universality of high-dimensional scaling limits of stochastic gradient descent
- arxiv url: http://arxiv.org/abs/2512.13634v1
- Date: Mon, 15 Dec 2025 18:30:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.801625
- Title: Universality of high-dimensional scaling limits of stochastic gradient descent
- Title(参考訳): 確率勾配勾配の高次元スケーリング限界の普遍性
- Authors: Reza Gheissari, Aukosh Jagannath,
- Abstract要約: 我々は、損失がデータに依存する高次元のタスクを、パラメータベクトルと特定の基底真理ベクトルにまたがる固定次元部分空間への射影を通してのみ考える。
これには、1層と2層ネットワークでクロスエントロピー損失を伴う混合分布の分類と、1層と2層ネットワークでシングルインデックスモデルとマルチインデックスモデルを学ぶことが含まれる。
- 参考スコア(独自算出の注目度): 8.760293543857706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider statistical tasks in high dimensions whose loss depends on the data only through its projection into a fixed-dimensional subspace spanned by the parameter vectors and certain ground truth vectors. This includes classifying mixture distributions with cross-entropy loss with one and two-layer networks, and learning single and multi-index models with one and two-layer networks. When the data is drawn from an isotropic Gaussian mixture distribution, it is known that the evolution of a finite family of summary statistics under stochastic gradient descent converges to an autonomous ordinary differential equation (ODE), as the dimension and sample size go to $\infty$ and the step size goes to $0$ commensurately. Our main result is that these ODE limits are universal in that this convergence occurs even when the data is drawn from mixtures of product measures provided the first two moments match the corresponding Gaussian distribution and the initialization and ground truth vectors are sufficiently coordinate-delocalized. We complement this by proving two corresponding non-universality results. We provide a simple example where the ODE limits are non-universal if the initialization is coordinate aligned. We also show that the stochastic differential equation limits arising as fluctuations of the summary statistics around their ODE's fixed points are not universal.
- Abstract(参考訳): 我々は、損失がデータに依存する高次元における統計的タスクを、パラメータベクトルと特定の基底真理ベクトルにまたがる固定次元部分空間への射影を通してのみ考える。
これには、1層と2層ネットワークでクロスエントロピー損失を伴う混合分布の分類と、1層と2層ネットワークでシングルインデックスモデルとマルチインデックスモデルを学ぶことが含まれる。
データが等方的ガウス混合分布から引き出されるとき、確率勾配勾配勾配下での有限の要約統計量の族の発展は、次元とサンプルサイズが$\infty$に、ステップサイズが$0$に収まるように、自律的常微分方程式(ODE)に収束することが知られている。
我々の主な結果は、これらのODE制限は、最初の2つのモーメントが対応するガウス分布と一致し、初期化と基底真理ベクトルが十分に座標非局在化されるような積測度の混合からデータを引き出されたとしても、この収束は普遍的であるということである。
我々はこれを補うために、対応する2つの非ユニバーサリティの結果を証明した。
初期化がコーディネートされた場合、ODE制限がユニバーサルでない簡単な例を提供する。
また、それらのODEの固定点に関する要約統計のゆらぎが普遍的でないことに起因する確率微分方程式の極限も示している。
関連論文リスト
- Spectrum-Aware Debiasing: A Modern Inference Framework with Applications to Principal Components Regression [1.342834401139078]
本稿では,高次元回帰のための新しい手法であるSpectrumAware Debiasingを紹介する。
我々のアプローチは、構造的、重く、低ランクな構造に関する問題に適用できる。
シミュレーションおよび実データ実験により本手法を実証する。
論文 参考訳(メタデータ) (2023-09-14T15:58:30Z) - High-dimensional limit theorems for SGD: Effective dynamics and critical
scaling [6.950316788263433]
我々は、勾配降下(SGD)の要約統計の軌跡に対する極限定理を証明する。
下記の有効弾道力学が人口減少の勾配流と一致するステップサイズにおける重要なスケーリング体制を示す。
この実効力学の固定点について、対応する拡散極限は極めて複雑であり、さらに退化することもある。
論文 参考訳(メタデータ) (2022-06-08T17:42:18Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - GANs as Gradient Flows that Converge [3.8707695363745223]
分布依存常微分方程式によって誘導される勾配流に沿って、未知のデータ分布が長時間の極限として現れることを示す。
ODEのシミュレーションは、生成ネットワーク(GAN)のトレーニングと等価である。
この等価性は、GANの新たな「協力的」見解を提供し、さらに重要なのは、GANの多様化に新たな光を放つことである。
論文 参考訳(メタデータ) (2022-05-05T20:29:13Z) - Nonconvex Stochastic Scaled-Gradient Descent and Generalized Eigenvector
Problems [98.34292831923335]
オンライン相関解析の問題から,emphStochastic Scaled-Gradient Descent (SSD)アルゴリズムを提案する。
我々はこれらのアイデアをオンライン相関解析に適用し、局所収束率を正規性に比例した最適な1時間スケールのアルゴリズムを初めて導いた。
論文 参考訳(メタデータ) (2021-12-29T18:46:52Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - Understanding Implicit Regularization in Over-Parameterized Single Index
Model [55.41685740015095]
我々は高次元単一インデックスモデルのための正規化自由アルゴリズムを設計する。
暗黙正則化現象の理論的保証を提供する。
論文 参考訳(メタデータ) (2020-07-16T13:27:47Z) - Semiparametric Nonlinear Bipartite Graph Representation Learning with
Provable Guarantees [106.91654068632882]
半パラメトリック指数族分布におけるパラメータの統計的推定問題として、両部グラフを考察し、その表現学習問題を定式化する。
提案手法は, 地中真理付近で強い凸性を示すため, 勾配降下法が線形収束率を達成できることを示す。
我々の推定器は指数族内の任意のモデル誤特定に対して頑健であり、広範な実験で検証されている。
論文 参考訳(メタデータ) (2020-03-02T16:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。