論文の概要: On the Validity of Modeling SGD with Stochastic Differential Equations
(SDEs)
- arxiv url: http://arxiv.org/abs/2102.12470v1
- Date: Wed, 24 Feb 2021 18:55:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-25 13:39:23.103864
- Title: On the Validity of Modeling SGD with Stochastic Differential Equations
(SDEs)
- Title(参考訳): 確率微分方程式(SDE)を用いたSGDモデリングの妥当性について
- Authors: Zhiyuan Li, Sadhika Malladi, Sanjeev Arora
- Abstract要約: 有限学習率 (LR) は実生活深層ネットのよい一般化に重要であると一般に認識されている。
有限LR SGD を Ito Differential Equations (SDEs) で近似することを提案する。
本論文は、以下の貢献により、この図を明確にする。
- 参考スコア(独自算出の注目度): 31.938587263846635
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: It is generally recognized that finite learning rate (LR), in contrast to
infinitesimal LR, is important for good generalization in real-life deep nets.
Most attempted explanations propose approximating finite-LR SGD with Ito
Stochastic Differential Equations (SDEs). But formal justification for this
approximation (e.g., (Li et al., 2019a)) only applies to SGD with tiny LR.
Experimental verification of the approximation appears computationally
infeasible. The current paper clarifies the picture with the following
contributions: (a) An efficient simulation algorithm SVAG that provably
converges to the conventionally used Ito SDE approximation. (b) Experiments
using this simulation to demonstrate that the previously proposed SDE
approximation can meaningfully capture the training and generalization
properties of common deep nets. (c) A provable and empirically testable
necessary condition for the SDE approximation to hold and also its most famous
implication, the linear scaling rule (Smith et al., 2020; Goyal et al., 2017).
The analysis also gives rigorous insight into why the SDE approximation may
fail.
- Abstract(参考訳): 有限学習率(LR)は、無限小LRとは対照的に、実生活深層ネットのよい一般化には重要であると一般に認識されている。
ほとんど試みられた説明は、イオ確率微分方程式 (SDE) を用いて有限LR SGD を近似することを提案する。
しかし、この近似の正式な正当化(例:Li et al., 2019a)は、小さなLRを持つSGDにのみ適用される。
近似の実験的検証は計算上不可能である。
本論文は, (a) 従来使用されている伊東SDE近似に確実に収束する効率的なシミュレーションアルゴリズムSVAG。
(b) このシミュレーションを用いた実験は、以前に提案されたSDE近似が一般的なディープネットの訓練および一般化特性を有意義に捉えることができることを実証する。
(c)SDE近似が保持すべき証明可能かつ実証可能な必要条件であり、その最も有名な意味である線形スケーリング規則(Smith et al., 2020, Goyal et al., 2017)。
分析はまた、SDE近似が失敗する理由に関する厳密な洞察を与える。
関連論文リスト
- A Unified Analysis for Finite Weight Averaging [50.75116992029417]
Gradient Descent(SGD)の平均イテレーションは、SWA(Weight Averaging)、EMA(Exponential moving Average)、LAWA(Latest Weight Averaging)といったディープラーニングモデルのトレーニングにおいて、経験的な成功を収めている。
本稿では、LAWAを有限重み平均化(FWA)として一般化し、最適化と一般化の観点からSGDと比較して、それらの利点を説明する。
論文 参考訳(メタデータ) (2024-11-20T10:08:22Z) - Closure Discovery for Coarse-Grained Partial Differential Equations Using Grid-based Reinforcement Learning [2.9611509639584304]
本稿では,グリッドベース強化学習を用いて,未解決PDEにおけるクロージャの同定のための体系的アプローチを提案する。
我々は, 対流方程式とバーガース方程式の数値解を用いて, フレームワークの機能と限界を実証する。
論文 参考訳(メタデータ) (2024-02-01T19:41:04Z) - Noise in the reverse process improves the approximation capabilities of
diffusion models [27.65800389807353]
生成モデリングにおける最先端技術であるスコアベース生成モデリング(SGM)では、リバースプロセスは決定論的手法よりも優れた性能を発揮することが知られている。
本稿では,ニューラル常微分方程式 (ODE) とニューラルディメンション方程式 (SDE) を逆過程として比較し,この現象の核となる。
我々は、Fokker-Planck方程式の軌跡を近似するニューラルSDEの能力を解析し、ニューラルティの利点を明らかにする。
論文 参考訳(メタデータ) (2023-12-13T02:39:10Z) - On the SDEs and Scaling Rules for Adaptive Gradient Algorithms [45.007261870784475]
微分方程式(SDE)としての勾配 Descent (SGD) の適用により、研究者は連続的な最適化軌道の研究の利点を享受できるようになった。
本稿では、RMSpropとAdamのSDE近似を導出し、理論上の正確性を保証するとともに、それらの適用性を検証する。
論文 参考訳(メタデータ) (2022-05-20T16:39:03Z) - BCD Nets: Scalable Variational Approaches for Bayesian Causal Discovery [97.79015388276483]
構造方程式モデル(SEM)は、有向非巡回グラフ(DAG)を介して表される因果関係を推論する効果的な枠組みである。
近年の進歩により、観測データからDAGの有効最大点推定が可能となった。
線形ガウス SEM を特徴付ける DAG 上の分布を推定するための変分フレームワークである BCD Nets を提案する。
論文 参考訳(メタデータ) (2021-12-06T03:35:21Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Mean-Square Analysis with An Application to Optimal Dimension Dependence
of Langevin Monte Carlo [60.785586069299356]
この研究は、2-ワッサーシュタイン距離におけるサンプリング誤差の非同相解析のための一般的な枠組みを提供する。
我々の理論解析は数値実験によってさらに検証される。
論文 参考訳(メタデータ) (2021-09-08T18:00:05Z) - Convergence rates and approximation results for SGD and its
continuous-time counterpart [16.70533901524849]
本稿では,非増加ステップサイズを有する凸勾配Descent (SGD) の完全理論的解析を提案する。
まず、結合を用いた不均一微分方程式(SDE)の解により、SGDを確実に近似できることを示す。
連続的手法による決定論的および最適化手法の最近の分析において, 連続過程の長期的挙動と非漸近的境界について検討する。
論文 参考訳(メタデータ) (2020-04-08T18:31:34Z) - SLEIPNIR: Deterministic and Provably Accurate Feature Expansion for
Gaussian Process Regression with Derivatives [86.01677297601624]
本稿では,2次フーリエ特徴に基づく導関数によるGP回帰のスケーリング手法を提案する。
我々は、近似されたカーネルと近似された後部の両方に適用される決定論的、非漸近的、指数関数的に高速な崩壊誤差境界を証明した。
論文 参考訳(メタデータ) (2020-03-05T14:33:20Z) - Stochastic Normalizing Flows [52.92110730286403]
微分方程式(SDE)を用いた最大推定と変分推論のための正規化フロー(VI)を導入する。
粗い経路の理論を用いて、基礎となるブラウン運動は潜在変数として扱われ、近似され、神経SDEの効率的な訓練を可能にする。
これらのSDEは、与えられたデータセットの基盤となる分布からサンプリングする効率的なチェーンを構築するために使用することができる。
論文 参考訳(メタデータ) (2020-02-21T20:47:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。