論文の概要: Stochastic Differential Equations models for Least-Squares Stochastic Gradient Descent
- arxiv url: http://arxiv.org/abs/2407.02322v1
- Date: Tue, 2 Jul 2024 14:52:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 15:06:12.749397
- Title: Stochastic Differential Equations models for Least-Squares Stochastic Gradient Descent
- Title(参考訳): 最小二乗確率勾配の確率微分方程式モデル
- Authors: Adrien Schertzer, Loucas Pillaud-Vivien,
- Abstract要約: グラディエントDescent(SGD)の連続時間モデルのダイナミクスについて検討する。
我々は,SGDをモデル化する退化微分方程式(squareSDEs)を,トレーニング損失(有限サンプル)と集団1(オンライン設定)のいずれにおいても解析する。
- 参考スコア(独自算出の注目度): 6.3151583550712065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the dynamics of a continuous-time model of the Stochastic Gradient Descent (SGD) for the least-square problem. Indeed, pursuing the work of Li et al. (2019), we analyze Stochastic Differential Equations (SDEs) that model SGD either in the case of the training loss (finite samples) or the population one (online setting). A key qualitative feature of the dynamics is the existence of a perfect interpolator of the data, irrespective of the sample size. In both scenarios, we provide precise, non-asymptotic rates of convergence to the (possibly degenerate) stationary distribution. Additionally, we describe this asymptotic distribution, offering estimates of its mean, deviations from it, and a proof of the emergence of heavy-tails related to the step-size magnitude. Numerical simulations supporting our findings are also presented.
- Abstract(参考訳): 最小二乗問題に対する確率勾配 Descent (SGD) の連続時間モデルのダイナミクスについて検討する。
実際、Li et al (2019) の研究を追求し、SGDをモデル化する確率微分方程式(SDEs)を分析し、トレーニング損失(有限サンプル)と人口1(オンライン設定)のいずれにおいても、SGDをモデル化する。
力学の重要な定性的特徴は、サンプルサイズに関係なく、データの完全な補間子の存在である。
どちらのシナリオでも、定常分布(おそらく退化)への収束の正確で非漸近的な速度を提供する。
さらに、この漸近分布を記述し、その平均値の推定、それからの偏差、およびステップサイズ等級に関連する重みの出現の証明を提供する。
また,本研究を裏付ける数値シミュレーションも行った。
関連論文リスト
- Convergence of Score-Based Discrete Diffusion Models: A Discrete-Time Analysis [56.442307356162864]
連続時間マルコフ連鎖(CTMC)に基づくスコアベース離散拡散モデルの理論的側面について検討する。
本稿では,事前定義された時間点におけるスコア推定値を利用する離散時間サンプリングアルゴリズムを一般状態空間$[S]d$に導入する。
我々の収束解析はジルサノフ法を用いて離散スコア関数の重要な性質を確立する。
論文 参考訳(メタデータ) (2024-10-03T09:07:13Z) - A Hessian-Aware Stochastic Differential Equation for Modelling SGD [28.974147174627102]
Hessian-Aware Modified Equation (HA-SME) は、対象関数の Hessian 情報をそのドリフトと拡散の両項に組み込む近似 SDE である。
二次的な目的のために、HA-SMEは分布感覚におけるSGDのダイナミクスを正確に回復する最初のSDEモデルであることが証明された。
論文 参考訳(メタデータ) (2024-05-28T17:11:34Z) - On the Trajectory Regularity of ODE-based Diffusion Sampling [79.17334230868693]
拡散に基づく生成モデルは微分方程式を用いて、複素データ分布と抽出可能な事前分布の間の滑らかな接続を確立する。
本稿では,拡散モデルのODEに基づくサンプリングプロセスにおいて,いくつかの興味深い軌道特性を同定する。
論文 参考訳(メタデータ) (2024-05-18T15:59:41Z) - Hitting the High-Dimensional Notes: An ODE for SGD learning dynamics on
GLMs and multi-index models [10.781866671930857]
高次元限界におけるストリーミング勾配降下(SGD)のダイナミクスを解析する。
我々は、通常の微分方程式の体系の形で、SGDの決定論的等価性を実証する。
決定論的等価性に加えて、単純化された拡散係数を持つSDEを導入する。
論文 参考訳(メタデータ) (2023-08-17T13:33:02Z) - Exploring the Optimal Choice for Generative Processes in Diffusion
Models: Ordinary vs Stochastic Differential Equations [6.2284442126065525]
ゼロ拡散(ODE)の場合と大きな拡散の場合の2つの制限シナリオについて数学的に検討する。
その結果, 生成過程の終端に摂動が発生すると, ODEモデルは大きな拡散係数でSDEモデルより優れることがわかった。
論文 参考訳(メタデータ) (2023-06-03T09:27:15Z) - A Geometric Perspective on Diffusion Models [57.27857591493788]
本稿では,人気のある分散拡散型SDEのODEに基づくサンプリングについて検討する。
我々は、最適なODEベースのサンプリングと古典的な平均シフト(モード探索)アルゴリズムの理論的関係を確立する。
論文 参考訳(メタデータ) (2023-05-31T15:33:16Z) - Score-based Continuous-time Discrete Diffusion Models [102.65769839899315]
連続時間マルコフ連鎖を介して逆過程が認知されるマルコフジャンププロセスを導入することにより、拡散モデルを離散変数に拡張する。
条件境界分布の単純なマッチングにより、偏りのない推定器が得られることを示す。
提案手法の有効性を,合成および実世界の音楽と画像のベンチマークで示す。
論文 参考訳(メタデータ) (2022-11-30T05:33:29Z) - On Large Batch Training and Sharp Minima: A Fokker-Planck Perspective [0.0]
勾配勾配勾配(SGD)の動的軌道の統計的性質について検討する。
我々は、SDEの連続的な定式化とフォッカー・プランク方程式の理論を利用して、エスケープ現象と大きなバッチとシャープなミニマとの関係に関する新しい結果を開発した。
論文 参考訳(メタデータ) (2021-12-02T05:24:05Z) - Heavy-tailed Streaming Statistical Estimation [58.70341336199497]
ストリーミング$p$のサンプルから重み付き統計推定の課題を考察する。
そこで我々は,傾きの雑音に対して,よりニュアンスな条件下での傾きの傾きの低下を設計し,より詳細な解析を行う。
論文 参考訳(メタデータ) (2021-08-25T21:30:27Z) - Accurate Characterization of Non-Uniformly Sampled Time Series using
Stochastic Differential Equations [0.0]
非均一サンプリングは、実験者が調査中のプロセスのサンプリング特性を完全に制御していない場合に発生する。
確率の数値最適化のための新しい初期推定法を提案する。
シミュレーション実験において,新しい推定器の精度が向上したことを示す。
論文 参考訳(メタデータ) (2020-07-02T13:03:09Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。