論文の概要: On Large Batch Training and Sharp Minima: A Fokker-Planck Perspective
- arxiv url: http://arxiv.org/abs/2112.00987v1
- Date: Thu, 2 Dec 2021 05:24:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 17:31:18.980039
- Title: On Large Batch Training and Sharp Minima: A Fokker-Planck Perspective
- Title(参考訳): 大バッチトレーニングとシャープミニマ:フォッカー・プランクの視点から
- Authors: Xiaowu Dai and Yuhua Zhu
- Abstract要約: 勾配勾配勾配(SGD)の動的軌道の統計的性質について検討する。
我々は、SDEの連続的な定式化とフォッカー・プランク方程式の理論を利用して、エスケープ現象と大きなバッチとシャープなミニマとの関係に関する新しい結果を開発した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the statistical properties of the dynamic trajectory of stochastic
gradient descent (SGD). We approximate the mini-batch SGD and the momentum SGD
as stochastic differential equations (SDEs). We exploit the continuous
formulation of SDE and the theory of Fokker-Planck equations to develop new
results on the escaping phenomenon and the relationship with large batch and
sharp minima. In particular, we find that the stochastic process solution tends
to converge to flatter minima regardless of the batch size in the asymptotic
regime. However, the convergence rate is rigorously proven to depend on the
batch size. These results are validated empirically with various datasets and
models.
- Abstract(参考訳): 確率勾配勾配(SGD)の動的軌道の統計的性質について検討した。
ミニバッチSGDと運動量SGDを確率微分方程式(SDE)として近似する。
本研究では, sde の連続定式化とフォッカー・プランク方程式の理論を用いて, 脱出現象と大型バッチおよびシャープミニマとの関係についての新しい結果を得る。
特に, 確率過程解は漸近的状態のバッチサイズに関係なく, より平坦な最小値に収束する傾向がある。
しかし、収束率はバッチサイズに依存することが厳密に証明されている。
これらの結果は、様々なデータセットやモデルで実証的に検証される。
関連論文リスト
- Stochastic Differential Equations models for Least-Squares Stochastic Gradient Descent [6.3151583550712065]
グラディエントDescent(SGD)の連続時間モデルのダイナミクスについて検討する。
我々は,SGDをモデル化する退化微分方程式(squareSDEs)を,トレーニング損失(有限サンプル)と集団1(オンライン設定)のいずれにおいても解析する。
論文 参考訳(メタデータ) (2024-07-02T14:52:21Z) - A Hessian-Aware Stochastic Differential Equation for Modelling SGD [28.974147174627102]
Hessian-Aware Modified Equation (HA-SME) は、対象関数の Hessian 情報をそのドリフトと拡散の両項に組み込む近似 SDE である。
二次的な目的のために、HA-SMEは分布感覚におけるSGDのダイナミクスを正確に回復する最初のSDEモデルであることが証明された。
論文 参考訳(メタデータ) (2024-05-28T17:11:34Z) - Gaussian Mixture Solvers for Diffusion Models [84.83349474361204]
本稿では,拡散モデルのためのGMSと呼ばれる,SDEに基づく新しい解法について紹介する。
画像生成およびストロークベース合成におけるサンプル品質の観点から,SDEに基づく多くの解法よりも優れる。
論文 参考訳(メタデータ) (2023-11-02T02:05:38Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - A Geometric Perspective on Diffusion Models [57.27857591493788]
本稿では,人気のある分散拡散型SDEのODEに基づくサンプリングについて検討する。
我々は、最適なODEベースのサンプリングと古典的な平均シフト(モード探索)アルゴリズムの理論的関係を確立する。
論文 参考訳(メタデータ) (2023-05-31T15:33:16Z) - Continuous-time stochastic gradient descent for optimizing over the
stationary distribution of stochastic differential equations [7.65995376636176]
定常分布の微分方程式(SDE)モデルを最適化するための新しい連続時間勾配降下法を開発した。
線形SDEモデルに対するオンライン前方伝播アルゴリズムの収束性を厳密に証明し、非線形例に対する数値結果を示す。
論文 参考訳(メタデータ) (2022-02-14T11:45:22Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Heavy-tailed Streaming Statistical Estimation [58.70341336199497]
ストリーミング$p$のサンプルから重み付き統計推定の課題を考察する。
そこで我々は,傾きの雑音に対して,よりニュアンスな条件下での傾きの傾きの低下を設計し,より詳細な解析を行う。
論文 参考訳(メタデータ) (2021-08-25T21:30:27Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Learning effective stochastic differential equations from microscopic
simulations: combining stochastic numerics and deep learning [0.46180371154032895]
ニューラルネットワークを用いた実効SDEにおけるドリフトと拡散関数を近似した。
当社のアプローチでは、長いトラジェクトリを必要とせず、散在するスナップショットデータで動作し、スナップショット毎に異なるタイムステップを自然に処理するように設計されています。
論文 参考訳(メタデータ) (2021-06-10T13:00:18Z) - Amortized variance reduction for doubly stochastic objectives [17.064916635597417]
複素確率モデルにおける近似推論は二重目的関数の最適化を必要とする。
現在のアプローチでは、ミニバッチがサンプリング性にどのように影響するかを考慮せず、結果として準最適分散が減少する。
本稿では,認識ネットワークを用いて各ミニバッチに対して最適な制御変数を安価に近似する手法を提案する。
論文 参考訳(メタデータ) (2020-03-09T13:23:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。