論文の概要: Online stochastic gradient descent on non-convex losses from
high-dimensional inference
- arxiv url: http://arxiv.org/abs/2003.10409v4
- Date: Mon, 10 May 2021 17:56:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 00:08:52.582522
- Title: Online stochastic gradient descent on non-convex losses from
high-dimensional inference
- Title(参考訳): 高次元推論による非凸損失のオンライン確率勾配降下
- Authors: Gerard Ben Arous, Reza Gheissari, Aukosh Jagannath
- Abstract要約: 勾配降下(SGD)は高次元タスクにおける最適化問題に対する一般的なアルゴリズムである。
本稿では,データから非自明な相関関係を推定する。
本稿では、位相探索や一般化モデルの推定といった一連のタスクに適用することで、我々のアプローチを説明する。
- 参考スコア(独自算出の注目度): 2.2344764434954256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic gradient descent (SGD) is a popular algorithm for optimization
problems arising in high-dimensional inference tasks. Here one produces an
estimator of an unknown parameter from independent samples of data by
iteratively optimizing a loss function. This loss function is random and often
non-convex. We study the performance of the simplest version of SGD, namely
online SGD, from a random start in the setting where the parameter space is
high-dimensional.
We develop nearly sharp thresholds for the number of samples needed for
consistent estimation as one varies the dimension. Our thresholds depend only
on an intrinsic property of the population loss which we call the information
exponent. In particular, our results do not assume uniform control on the loss
itself, such as convexity or uniform derivative bounds. The thresholds we
obtain are polynomial in the dimension and the precise exponent depends
explicitly on the information exponent. As a consequence of our results, we
find that except for the simplest tasks, almost all of the data is used simply
in the initial search phase to obtain non-trivial correlation with the ground
truth. Upon attaining non-trivial correlation, the descent is rapid and
exhibits law of large numbers type behavior.
We illustrate our approach by applying it to a wide set of inference tasks
such as phase retrieval, and parameter estimation for generalized linear
models, online PCA, and spiked tensor models, as well as to supervised learning
for single-layer networks with general activation functions.
- Abstract(参考訳): 確率勾配降下(SGD)は高次元推論タスクで生じる最適化問題に対する一般的なアルゴリズムである。
ここでは、損失関数を反復的に最適化することにより、データの独立したサンプルから未知のパラメータを推定する。
この損失関数はランダムであり、しばしば凸ではない。
本研究では,パラメータ空間が高次元な環境でのランダムスタートから,SGDの最も単純なバージョンであるオンラインSGDの性能について検討する。
我々は、次元が変化するため、一貫した推定に必要なサンプル数についてほぼ鋭いしきい値を開発する。
我々の閾値は、私たちが情報指数と呼ぶ人口減少の本質的な性質にのみ依存する。
特に、我々の結果は、凸性や一様微分境界のような損失自体の均一な制御を前提としない。
得られた閾値は次元の多項式であり、正確な指数は情報指数に明示的に依存する。
その結果、最も単純なタスクを除いて、ほとんど全てのデータは、基礎的真理と非自明な相関を得るために、初期探索フェーズでのみ使用されることが判明した。
非自明な相関に達すると、その降下は急速に進行し、大きな数の振る舞いの法則を示す。
本稿では, 一般線形モデル, オンラインPCA, スパイクテンソルモデルに対して, 位相探索やパラメータ推定などの幅広い推論タスクに適用し, 一般的なアクティベーション機能を持つ単一層ネットワークに対する教師あり学習について述べる。
関連論文リスト
- Privacy of the last iterate in cyclically-sampled DP-SGD on nonconvex composite losses [2.532202013576547]
微分プライベート勾配(DP-SGD)は、微分プライベートモデルパラメータの列を生成するために反復する反復機械学習アルゴリズムのファミリーである。
最終段階の会計は困難であり、既存の作業はほとんどの実装で満たされていない強い仮定を必要とする。
損失関数の小さなステップサイズとリプシッツ滑らかさの現実的な仮定の下で、最後のイテレーションに対して新しいRenyi差分プライバシー(R)上限を提供する。
論文 参考訳(メタデータ) (2024-07-07T02:35:55Z) - Gradient-Based Feature Learning under Structured Data [57.76552698981579]
異方性設定では、一般的に使用される球面勾配力学は真の方向を回復できないことがある。
バッチ正規化を連想させる適切な重み正規化は、この問題を軽減することができることを示す。
特に、スパイクモデルの下では、勾配に基づくトレーニングのサンプルの複雑さは情報指数とは独立にできる。
論文 参考訳(メタデータ) (2023-09-07T16:55:50Z) - Fast Convergence in Learning Two-Layer Neural Networks with Separable
Data [37.908159361149835]
2層ニューラルネット上の正規化勾配勾配について検討した。
正規化GDを用いてトレーニング損失の線形収束率を大域的最適に導くことを証明する。
論文 参考訳(メタデータ) (2023-05-22T20:30:10Z) - On High dimensional Poisson models with measurement error: hypothesis
testing for nonlinear nonconvex optimization [13.369004892264146]
我々は高次元の回帰モデルの推定と検証を行い、データ解析に広く応用する。
ペナル化された一貫性を最小化することで回帰パラメータを推定する。
提案手法はアルツハイマー病イニシアチブに適用される。
論文 参考訳(メタデータ) (2022-12-31T06:58:42Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - Adaptive Sketches for Robust Regression with Importance Sampling [64.75899469557272]
我々は、勾配降下(SGD)による頑健な回帰を解くためのデータ構造を導入する。
我々のアルゴリズムは、サブ線形空間を使用し、データに1回パスするだけで、SGDの$T$ステップを重要サンプリングで効果的に実行します。
論文 参考訳(メタデータ) (2022-07-16T03:09:30Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Fundamental Limits of Ridge-Regularized Empirical Risk Minimization in
High Dimensions [41.7567932118769]
経験的リスク最小化アルゴリズムは、様々な推定や予測タスクで広く利用されている。
本稿では,コンベックスEMMの統計的精度に関する基礎的限界を推論のために初めて特徴づける。
論文 参考訳(メタデータ) (2020-06-16T04:27:38Z) - Statistical Inference for Model Parameters in Stochastic Gradient
Descent [45.29532403359099]
勾配降下係数(SGD)は,その計算効率とメモリ効率から,大規模データの統計的推定に広く用いられている。
人口減少関数が強い凸であり,一定の条件を満たす場合,SGDに基づく真のモデルパラメータの統計的推測の問題について検討する。
論文 参考訳(メタデータ) (2016-10-27T07:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。