論文の概要: Learning single index model with gradient descent: spectral initialization and precise asymptotics
- arxiv url: http://arxiv.org/abs/2509.23527v1
- Date: Sat, 27 Sep 2025 23:27:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.273887
- Title: Learning single index model with gradient descent: spectral initialization and precise asymptotics
- Title(参考訳): 勾配降下に基づく単一指数モデル学習:スペクトル初期化と正確な漸近
- Authors: Yuchen Chen, Yandi Shen,
- Abstract要約: 十分なサンプルサイズを持つ学習問題に対して、良質なデータを持つ真の信号の周りには領域が存在することを示す。
多くの変数によって動機付けられ、広く使われている戦略は、2段階のアルゴリズムであり、まずスペクトル勾配降下を適用する。
我々は、検索のための正規化ウィチンガーフローの例で、我々の一般的な理論を実証する。
- 参考スコア(独自算出の注目度): 6.142981584296888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-convex optimization plays a central role in many statistics and machine learning problems. Despite the landscape irregularities for general non-convex functions, some recent work showed that for many learning problems with random data and large enough sample size, there exists a region around the true signal with benign landscape. Motivated by this observation, a widely used strategy is a two-stage algorithm, where we first apply a spectral initialization to plunge into the region, and then run gradient descent for further refinement. While this two-stage algorithm has been extensively analyzed for many non-convex problems, the precise distributional property of both its transient and long-time behavior remains to be understood. In this work, we study this two-stage algorithm in the context of single index models under the proportional asymptotics regime. We derive a set of dynamical mean field equations, which describe the precise behavior of the trajectory of spectral initialized gradient descent in the large system limit. We further show that when the spectral initialization successfully lands in a region of benign landscape, the above equation system is asymptotically time translation invariant and exponential converging, and thus admits a set of long-time fixed points that represents the mean field characterization of the limiting point of the gradient descent dynamic. As a proof of concept, we demonstrate our general theory in the example of regularized Wirtinger flow for phase retrieval.
- Abstract(参考訳): 非凸最適化は多くの統計や機械学習問題において中心的な役割を果たす。
一般的な非凸関数に対するランドスケープの不規則性にもかかわらず、最近の研究により、ランダムデータと十分なサンプルサイズを持つ多くの学習問題に対して、良質なランドスケープを持つ真の信号の周りには領域が存在することが示されている。
この観測により、広範に使われている戦略は、2段階のアルゴリズムであり、まずスペクトル初期化を適用して領域に落下させ、さらに改良するために勾配降下を行う。
この2段階のアルゴリズムは多くの非凸問題に対して広範囲に解析されてきたが、その過渡的および長時間の挙動の正確な分布特性は理解されていない。
本研究では,この2段階のアルゴリズムを,比例漸近状態下での単一指標モデルの文脈で検討する。
本研究では, スペクトル初期化勾配勾配の軌跡の高精度な挙動を記述するための力学平均場方程式の集合を導出する。
さらに、スペクトル初期化が良性景観の領域に着地した場合、上記の方程式系は漸近的に時間変換不変かつ指数的収束であり、勾配勾配ダイナミクスの極限点の平均場特性を表す長い時間的固定点の集合を許容することを示す。
概念実証として、位相探索のための正規化ウィティンガー流の例において、我々の一般的な理論を実証する。
関連論文リスト
- Long-time dynamics and universality of nonconvex gradient descent [0.7614628596146601]
本稿では,非勾配勾配の長期的挙動を単一インデックスモデルで特徴づけるための一般的な手法を開発する。
我々のアプローチでは、勾配降下は概してデータとは独立であり、特徴ベクトルと強く一致しないことが明らかとなった。
論文 参考訳(メタデータ) (2025-09-14T20:36:18Z) - Limit Theorems for Stochastic Gradient Descent with Infinite Variance [51.4853131023238]
この勾配降下アルゴリズムは、適切なL'evy過程によって駆動されるオルンシュタイン-ルンシュタイン過程の定常分布として特徴付けられることを示す。
また、これらの結果の線形回帰モデルおよびロジスティック回帰モデルへの応用についても検討する。
論文 参考訳(メタデータ) (2024-10-21T09:39:10Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Sampling from Gaussian Process Posteriors using Stochastic Gradient
Descent [43.097493761380186]
勾配アルゴリズムは線形系を解くのに有効な方法である。
最適値に収束しない場合であっても,勾配降下は正確な予測を導出することを示す。
実験的に、勾配降下は十分に大規模または不条件の回帰タスクにおいて最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-06-20T15:07:37Z) - Nonconvex Stochastic Scaled-Gradient Descent and Generalized Eigenvector
Problems [98.34292831923335]
オンライン相関解析の問題から,emphStochastic Scaled-Gradient Descent (SSD)アルゴリズムを提案する。
我々はこれらのアイデアをオンライン相関解析に適用し、局所収束率を正規性に比例した最適な1時間スケールのアルゴリズムを初めて導いた。
論文 参考訳(メタデータ) (2021-12-29T18:46:52Z) - Stochasticity helps to navigate rough landscapes: comparing
gradient-descent-based algorithms in the phase retrieval problem [8.164433158925593]
本研究では,動的降下,永続勾配,ランジュバン景観降下などの解析ベースアルゴリズムについて検討する。
統計的軌道からの統計場理論をアルゴリズムにフルタイムで適用し、開始時と大規模なシステムサイズで適用します。
論文 参考訳(メタデータ) (2021-03-08T17:06:18Z) - Dynamical mean-field theory for stochastic gradient descent in Gaussian
mixture classification [25.898873960635534]
高次元景観を分類する単一層ニューラルネットワークにおける勾配降下(SGD)の閉学習ダイナミクスを解析する。
連続次元勾配流に拡張可能なプロトタイププロセスを定義する。
フルバッチ限界では、標準勾配流を回復する。
論文 参考訳(メタデータ) (2020-06-10T22:49:41Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。