論文の概要: A Hessian-Aware Stochastic Differential Equation for Modelling SGD
- arxiv url: http://arxiv.org/abs/2405.18373v2
- Date: Mon, 5 Aug 2024 22:25:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 18:42:52.302944
- Title: A Hessian-Aware Stochastic Differential Equation for Modelling SGD
- Title(参考訳): SGDモデリングのためのヘシアン対応確率微分方程式
- Authors: Xiang Li, Zebang Shen, Liang Zhang, Niao He,
- Abstract要約: Hessian-Aware Modified Equation (HA-SME) は、対象関数の Hessian 情報をそのドリフトと拡散の両項に組み込む近似 SDE である。
二次的な目的のために、HA-SMEは分布感覚におけるSGDのダイナミクスを正確に回復する最初のSDEモデルであることが証明された。
- 参考スコア(独自算出の注目度): 28.974147174627102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continuous-time approximation of Stochastic Gradient Descent (SGD) is a crucial tool to study its escaping behaviors from stationary points. However, existing stochastic differential equation (SDE) models fail to fully capture these behaviors, even for simple quadratic objectives. Built on a novel stochastic backward error analysis framework, we derive the Hessian-Aware Stochastic Modified Equation (HA-SME), an SDE that incorporates Hessian information of the objective function into both its drift and diffusion terms. Our analysis shows that HA-SME matches the order-best approximation error guarantee among existing SDE models in the literature, while achieving a significantly reduced dependence on the smoothness parameter of the objective. Further, for quadratic objectives, under mild conditions, HA-SME is proved to be the first SDE model that recovers exactly the SGD dynamics in the distributional sense. Consequently, when the local landscape near a stationary point can be approximated by quadratics, HA-SME is expected to accurately predict the local escaping behaviors of SGD.
- Abstract(参考訳): SGD(Stochastic Gradient Descent)の連続時間近似は定常点からの脱出行動を研究する上で重要なツールである。
しかし、既存の確率微分方程式(SDE)モデルは、単純な二次目的に対しても、これらの挙動を完全に捉えることができない。
新たな確率的後方誤り解析フレームワークを基盤として,対象関数のヘッセン情報と拡散項を組み込んだSDEであるHessian-Aware Stochastic Modified Equation (HA-SME) を導出する。
解析の結果, HA-SMEは既存のSDEモデルと最良近似誤差の保証値に一致し, 目的の滑らか度パラメータに大きく依存することがわかった。
さらに、二次的な目的に対して、軽度条件下では、HA-SMEは分布感覚におけるSGDのダイナミクスを正確に回復する最初のSDEモデルであることが証明された。
その結果,定常点近傍の局所景観を2次的に近似できる場合,HA-SMEはSGDの局所避難挙動を正確に予測することが期待される。
関連論文リスト
- Stochastic Differential Equations models for Least-Squares Stochastic Gradient Descent [6.3151583550712065]
グラディエントDescent(SGD)の連続時間モデルのダイナミクスについて検討する。
我々は,SGDをモデル化する退化微分方程式(squareSDEs)を,トレーニング損失(有限サンプル)と集団1(オンライン設定)のいずれにおいても解析する。
論文 参考訳(メタデータ) (2024-07-02T14:52:21Z) - Effect of Random Learning Rate: Theoretical Analysis of SGD Dynamics in Non-Convex Optimization via Stationary Distribution [6.144680854063938]
本研究では,その収束特性を明らかにするために,ランダムな学習率を持つ勾配降下(SGD)の変種を考察する。
ポアソンSGDによって更新されたパラメータの分布は、弱い仮定の下で定常分布に収束することを示した。
論文 参考訳(メタデータ) (2024-06-23T06:52:33Z) - Diagonalisation SGD: Fast & Convergent SGD for Non-Differentiable Models
via Reparameterisation and Smoothing [1.6114012813668932]
微分不可能な関数を断片的に定義するための単純なフレームワークを導入し,スムース化を得るための体系的なアプローチを提案する。
我々の主な貢献は SGD の新たな変種 Diagonalisation Gradient Descent であり、滑らかな近似の精度を徐々に向上させる。
我々のアプローチは単純で高速で安定であり、作業正規化分散の桁数削減を実現している。
論文 参考訳(メタデータ) (2024-02-19T00:43:22Z) - Implicit Bias of Gradient Descent for Logistic Regression at the Edge of
Stability [69.01076284478151]
機械学習の最適化において、勾配降下(GD)はしばしば安定性の端(EoS)で動く
本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数段差GDの収束と暗黙バイアスについて検討する。
論文 参考訳(メタデータ) (2023-05-19T16:24:47Z) - Numerically Stable Sparse Gaussian Processes via Minimum Separation
using Cover Trees [57.67528738886731]
誘導点に基づくスケーラブルスパース近似の数値安定性について検討する。
地理空間モデリングなどの低次元タスクに対しては,これらの条件を満たす点を自動計算する手法を提案する。
論文 参考訳(メタデータ) (2022-10-14T15:20:17Z) - BCD Nets: Scalable Variational Approaches for Bayesian Causal Discovery [97.79015388276483]
構造方程式モデル(SEM)は、有向非巡回グラフ(DAG)を介して表される因果関係を推論する効果的な枠組みである。
近年の進歩により、観測データからDAGの有効最大点推定が可能となった。
線形ガウス SEM を特徴付ける DAG 上の分布を推定するための変分フレームワークである BCD Nets を提案する。
論文 参考訳(メタデータ) (2021-12-06T03:35:21Z) - On Large Batch Training and Sharp Minima: A Fokker-Planck Perspective [0.0]
勾配勾配勾配(SGD)の動的軌道の統計的性質について検討する。
我々は、SDEの連続的な定式化とフォッカー・プランク方程式の理論を利用して、エスケープ現象と大きなバッチとシャープなミニマとの関係に関する新しい結果を開発した。
論文 参考訳(メタデータ) (2021-12-02T05:24:05Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Noise and Fluctuation of Finite Learning Rate Stochastic Gradient
Descent [3.0079490585515343]
勾配降下(SGD)は、消滅する学習率体制において比較的よく理解されている。
SGDとその変異体の基本特性を非退化学習率体系で研究することを提案する。
論文 参考訳(メタデータ) (2020-12-07T12:31:43Z) - Fine-Grained Analysis of Stability and Generalization for Stochastic
Gradient Descent [55.85456985750134]
我々は,SGDの反復的リスクによって制御される新しい境界を開発する,平均モデル安定性と呼ばれる新しい安定性尺度を導入する。
これにより、最良のモデルの振舞いによって一般化境界が得られ、低雑音環境における最初の既知の高速境界が導かれる。
我々の知る限りでは、このことはSGDの微分不能な損失関数でさえも初めて知られている安定性と一般化を与える。
論文 参考訳(メタデータ) (2020-06-15T06:30:19Z) - Stochastic Normalizing Flows [52.92110730286403]
微分方程式(SDE)を用いた最大推定と変分推論のための正規化フロー(VI)を導入する。
粗い経路の理論を用いて、基礎となるブラウン運動は潜在変数として扱われ、近似され、神経SDEの効率的な訓練を可能にする。
これらのSDEは、与えられたデータセットの基盤となる分布からサンプリングする効率的なチェーンを構築するために使用することができる。
論文 参考訳(メタデータ) (2020-02-21T20:47:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。