論文の概要: Towards Continuous-Time Approximations for Stochastic Gradient Descent without Replacement
- arxiv url: http://arxiv.org/abs/2512.04703v1
- Date: Thu, 04 Dec 2025 11:52:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.145211
- Title: Towards Continuous-Time Approximations for Stochastic Gradient Descent without Replacement
- Title(参考訳): 置換を伴わない確率勾配の連続時間近似に向けて
- Authors: Stefan Perko,
- Abstract要約: 置換のない降下(SGDo)に基づくエポック(epochs)を用いた勾配最適化アルゴリズムは、主に機械学習モデルを実際にトレーニングするために使用される。
我々は「急激なブラウン運動」と呼ばれるプロセスによって駆動されるヤング微分方程式に基づく加法雑音を伴うSGDoの連続時間近似を提案する。
強凸対象に対する連続時間近似のほぼ確実に収束と、(0,1)$で$u_t = frac1(+t)の学習速度スケジュールを証明することによって、その有用性を示す。
- 参考スコア(独自算出の注目度): 1.7767466724342065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gradient optimization algorithms using epochs, that is those based on stochastic gradient descent without replacement (SGDo), are predominantly used to train machine learning models in practice. However, the mathematical theory of SGDo and related algorithms remain underexplored compared to their "with replacement" and "one-pass" counterparts. In this article, we propose a stochastic, continuous-time approximation to SGDo with additive noise based on a Young differential equation driven by a stochastic process we call an "epoched Brownian motion". We show its usefulness by proving the almost sure convergence of the continuous-time approximation for strongly convex objectives and learning rate schedules of the form $u_t = \frac{1}{(1+t)^β}, β\in (0,1)$. Moreover, we compute an upper bound on the asymptotic rate of almost sure convergence, which is as good or better than previous results for SGDo.
- Abstract(参考訳): 置換のない確率勾配勾配(SGDo)に基づくエポックを用いた勾配最適化アルゴリズムは、実際に機械学習モデルをトレーニングするために主に使用される。
しかし、SGDoと関連するアルゴリズムの数学的理論は、その「代替」と「ワンパス」のアルゴリズムと比較してまだ未定のままである。
本稿では、確率過程によって駆動されるヤング微分方程式に基づいて、SGDoに対する確率的連続時間近似を「急激なブラウン運動」と呼ぶ。
強凸対象に対する連続時間近似のほぼ確実に収束と、u_t = \frac{1}{(1+t)^β}, β\in (0,1)$の学習速度スケジュールを証明して有用性を示す。
さらに, ほぼ確実に収束する漸近速度の上限を計算し, 従来のSGDoよりも良いか良いかを示す。
関連論文リスト
- Convergence of Momentum-Based Optimization Algorithms with Time-Varying Parameters [0.0]
モーメント項を用いた最適化のための統一アルゴリズムを提案する。
勾配は、対象関数の現在の真の勾配だけでなく、前の反復における真の勾配にも依存する。
論文 参考訳(メタデータ) (2025-06-13T15:53:17Z) - Gaussian Approximation and Multiplier Bootstrap for Stochastic Gradient Descent [14.19520637866741]
信頼性セット構築のための乗算器ブートストラップの非漸近的妥当性を確立する。
我々は1/sqrtn$までの凸距離の近似レートを導出する。
論文 参考訳(メタデータ) (2025-02-10T17:49:05Z) - Limit Theorems for Stochastic Gradient Descent with Infinite Variance [51.4853131023238]
この勾配降下アルゴリズムは、適切なL'evy過程によって駆動されるオルンシュタイン-ルンシュタイン過程の定常分布として特徴付けられることを示す。
また、これらの結果の線形回帰モデルおよびロジスティック回帰モデルへの応用についても検討する。
論文 参考訳(メタデータ) (2024-10-21T09:39:10Z) - One-step corrected projected stochastic gradient descent for statistical estimation [49.1574468325115]
これは、Fisherスコアリングアルゴリズムの1ステップで修正されたログ様関数の予測勾配勾配に基づいている。
理論およびシミュレーションにより、平均勾配勾配や適応勾配勾配の通常の勾配勾配の代替として興味深いものであることを示す。
論文 参考訳(メタデータ) (2023-06-09T13:43:07Z) - Convergence of Batch Stochastic Gradient Descent Methods with
Approximate Gradients and/or Noisy Measurements: Theory and Computational
Results [0.9900482274337404]
BSGD(Block Gradient Descent)と呼ばれる非常に一般的な定式化を用いた凸最適化の研究
我々は近似理論に基づいて,BSGDが世界最小値に収束する条件を確立する。
近似勾配を用いると、BSGDは収束し、運動量に基づく手法は分岐できることを示す。
論文 参考訳(メタデータ) (2022-09-12T16:23:15Z) - Exponential Concentration in Stochastic Approximation [0.8192907805418583]
我々は,各ステップで目標に向かって反復的に進行する近似アルゴリズムの挙動を解析する。
我々はマルコフ近似アルゴリズム、具体的には射影勾配 Descent, Kiefer-Wolfowitz および Frank-Wolfe アルゴリズムに適用する。
論文 参考訳(メタデータ) (2022-08-15T14:57:26Z) - Optimal Extragradient-Based Bilinearly-Coupled Saddle-Point Optimization [116.89941263390769]
滑らかな凸凹凸結合型サドル点問題, $min_mathbfxmax_mathbfyF(mathbfx) + H(mathbfx,mathbfy)$ を考える。
漸進的勾配指数(AG-EG)降下指数アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2022-06-17T06:10:20Z) - Utilising the CLT Structure in Stochastic Gradient based Sampling :
Improved Analysis and Faster Algorithms [14.174806471635403]
粒子ダイナミック(IPD)に対するグラディエント・ランゲヴィン・ダイナミクス(SGLD)やランダムバッチ法(RBM)などのサンプリングアルゴリズムの近似を考察する。
近似によって生じる雑音は中央極限定理(CLT)によりほぼガウス的であるが、ブラウン運動はまさにガウス的である。
この構造を利用して拡散過程内の近似誤差を吸収し、これらのアルゴリズムの収束保証を改善する。
論文 参考訳(メタデータ) (2022-06-08T10:17:40Z) - On the Convergence of mSGD and AdaGrad for Stochastic Optimization [0.696125353550498]
凸降下(SGD)は、過去10年間に機械学習に大きく開発され、広く応用されてきた。
モーメントベースのSGD(mSGD)や適応的勾配最適化(AdaGrad)など、多くの競合や応用においてSGDよりも優れている修正SGD型アルゴリズムもある。
我々は,機械学習における任意の滑らかな(不可能かもしれない)損失関数に対するmSGDとAdaGradの収束解析に着目する。
論文 参考訳(メタデータ) (2022-01-26T22:02:21Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - High-probability Bounds for Non-Convex Stochastic Optimization with
Heavy Tails [55.561406656549686]
我々は、勾配推定が末尾を持つ可能性のある一階アルゴリズムを用いたヒルベルト非最適化を考える。
本研究では, 勾配, 運動量, 正規化勾配勾配の収束を高確率臨界点に収束させることと, 円滑な損失に対する最もよく知られた繰り返しを示す。
論文 参考訳(メタデータ) (2021-06-28T00:17:01Z) - ROOT-SGD: Sharp Nonasymptotics and Near-Optimal Asymptotics in a Single Algorithm [71.13558000599839]
第一次アルゴリズムを用いて,厳密な凸と滑らかな非制約最適化問題の解法について検討する。
我々は,過去の勾配を平均化し,実装が容易な小説「Recursive One-Over-T SGD」を考案した。
有限サンプル, 漸近感覚, 感覚の両面において, 最先端の性能を同時に達成できることを実証する。
論文 参考訳(メタデータ) (2020-08-28T14:46:56Z) - Stochastic Optimization with Heavy-Tailed Noise via Accelerated Gradient
Clipping [69.9674326582747]
そこで本研究では,重み付き分散雑音を用いたスムーズな凸最適化のための,クリップ付きSSTMと呼ばれる新しい1次高速化手法を提案する。
この場合、最先端の結果を上回る新たな複雑さが証明される。
本研究は,SGDにおいて,ノイズに対する光細かな仮定を伴わずにクリッピングを施した最初の非自明な高確率複雑性境界を導出した。
論文 参考訳(メタデータ) (2020-05-21T17:05:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。