論文の概要: Long-time dynamics and universality of nonconvex gradient descent
- arxiv url: http://arxiv.org/abs/2509.11426v1
- Date: Sun, 14 Sep 2025 20:36:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.078614
- Title: Long-time dynamics and universality of nonconvex gradient descent
- Title(参考訳): 非凸勾配勾配の長時間力学と普遍性
- Authors: Qiyang Han,
- Abstract要約: 本稿では,非勾配勾配の長期的挙動を単一インデックスモデルで特徴づけるための一般的な手法を開発する。
我々のアプローチでは、勾配降下は概してデータとは独立であり、特徴ベクトルと強く一致しないことが明らかとなった。
- 参考スコア(独自算出の注目度): 0.7614628596146601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper develops a general approach to characterize the long-time trajectory behavior of nonconvex gradient descent in generalized single-index models in the large aspect ratio regime. In this regime, we show that for each iteration the gradient descent iterate concentrates around a deterministic vector called the `Gaussian theoretical gradient descent', whose dynamics can be tracked by a state evolution system of two recursive equations for two scalars. Our concentration guarantees hold universally for a broad class of design matrices and remain valid over long time horizons until algorithmic convergence or divergence occurs. Moreover, our approach reveals that gradient descent iterates are in general approximately independent of the data and strongly incoherent with the feature vectors, a phenomenon previously known as the `implicit regularization' effect of gradient descent in specific models under Gaussian data. As an illustration of the utility of our general theory, we present two applications of different natures in the regression setting. In the first, we prove global convergence of nonconvex gradient descent with general independent initialization for a broad class of structured link functions, and establish universality of randomly initialized gradient descent in phase retrieval for large aspect ratios. In the second, we develop a data-free iterative algorithm for estimating state evolution parameters along the entire gradient descent trajectory, thereby providing a low-cost yet statistically valid tool for practical tasks such as hyperparameter tuning and runtime determination. As a by-product of our analysis, we show that in the large aspect ratio regime, the Gaussian theoretical gradient descent coincides with a recent line of dynamical mean-field theory for gradient descent over the constant-time horizon.
- Abstract(参考訳): 本稿では,大局的アスペクト比の一般的な単一インデックスモデルにおいて,非凸勾配勾配の長時間軌跡挙動を特徴付けるための一般的な手法を開発する。
この体制では、各反復において勾配降下は「ガウス理論勾配降下」と呼ばれる決定論的ベクトルを中心に集中し、2つのスカラーに対する2つの再帰方程式の状態進化系によってダイナミクスを追跡できることを示す。
我々の濃度保証は、幅広い種類の設計行列を普遍的に保持し、アルゴリズムの収束や発散が起きるまで長い時間的水平線上で有効である。
さらに,本手法では,勾配降下は概してデータとは独立であり,特徴ベクトルと強く一致しないことが明らかとなった。
一般理論の有用性の例証として、回帰設定において異なる性質の2つの応用を提示する。
第一に、構造化リンク関数の幅広いクラスに対する一般独立初期化による非凸勾配勾配のグローバル収束を証明し、大きなアスペクト比の位相探索におけるランダム初期化勾配勾配の普遍性を確立する。
第2に、勾配降下軌道全体に沿った状態進化パラメータを推定するデータ自由反復アルゴリズムを開発し、ハイパーパラメータチューニングや実行時決定などの実用的なタスクに対して、低コストで統計的に有効なツールを提供する。
解析の副産物として、ガウス理論の勾配勾配は、大きなアスペクト比規則において、定数時間地平線上の勾配降下に関する最近の動的平均場理論の線と一致することを示す。
関連論文リスト
- Gradient descent inference in empirical risk minimization [1.1510009152620668]
勾配降下法は、現代の統計学習において最も広く使われている反復アルゴリズムの1つである。
本稿では,多種多様な経験的リスク最小化問題における勾配降下の精度,非漸近的特性について述べる。
論文 参考訳(メタデータ) (2024-12-12T17:47:08Z) - Limit Theorems for Stochastic Gradient Descent with Infinite Variance [51.4853131023238]
この勾配降下アルゴリズムは、適切なL'evy過程によって駆動されるオルンシュタイン-ルンシュタイン過程の定常分布として特徴付けられることを示す。
また、これらの結果の線形回帰モデルおよびロジスティック回帰モデルへの応用についても検討する。
論文 参考訳(メタデータ) (2024-10-21T09:39:10Z) - Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - Neural Gradient Learning and Optimization for Oriented Point Normal
Estimation [53.611206368815125]
本研究では,3次元点雲から勾配ベクトルを一貫した向きで学習し,正規推定を行うためのディープラーニング手法を提案する。
局所平面幾何に基づいて角距離場を学習し、粗勾配ベクトルを洗練する。
本手法は,局所特徴記述の精度と能力の一般化を図りながら,グローバル勾配近似を効率的に行う。
論文 参考訳(メタデータ) (2023-09-17T08:35:11Z) - Sampling from Gaussian Process Posteriors using Stochastic Gradient
Descent [43.097493761380186]
勾配アルゴリズムは線形系を解くのに有効な方法である。
最適値に収束しない場合であっても,勾配降下は正確な予測を導出することを示す。
実験的に、勾配降下は十分に大規模または不条件の回帰タスクにおいて最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-06-20T15:07:37Z) - Stability vs Implicit Bias of Gradient Methods on Separable Data and
Beyond [33.593203156666746]
分離線形分類に適用された非正規化勾配に基づく学習手順の一般化特性に着目する。
この一般化についてさらに統一的な説明をし、実現可能性と自己有界性(self-boundedness)と呼ぶ。
これらのケースのいくつかでは、文献における既存の一般化誤差境界に対して、我々の境界は著しく改善される。
論文 参考訳(メタデータ) (2022-02-27T19:56:36Z) - Nonconvex Stochastic Scaled-Gradient Descent and Generalized Eigenvector
Problems [98.34292831923335]
オンライン相関解析の問題から,emphStochastic Scaled-Gradient Descent (SSD)アルゴリズムを提案する。
我々はこれらのアイデアをオンライン相関解析に適用し、局所収束率を正規性に比例した最適な1時間スケールのアルゴリズムを初めて導いた。
論文 参考訳(メタデータ) (2021-12-29T18:46:52Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Stochasticity helps to navigate rough landscapes: comparing
gradient-descent-based algorithms in the phase retrieval problem [8.164433158925593]
本研究では,動的降下,永続勾配,ランジュバン景観降下などの解析ベースアルゴリズムについて検討する。
統計的軌道からの統計場理論をアルゴリズムにフルタイムで適用し、開始時と大規模なシステムサイズで適用します。
論文 参考訳(メタデータ) (2021-03-08T17:06:18Z) - Dynamical mean-field theory for stochastic gradient descent in Gaussian
mixture classification [25.898873960635534]
高次元景観を分類する単一層ニューラルネットワークにおける勾配降下(SGD)の閉学習ダイナミクスを解析する。
連続次元勾配流に拡張可能なプロトタイププロセスを定義する。
フルバッチ限界では、標準勾配流を回復する。
論文 参考訳(メタデータ) (2020-06-10T22:49:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。