論文の概要: Randomised Splitting Methods and Stochastic Gradient Descent
- arxiv url: http://arxiv.org/abs/2504.04274v1
- Date: Sat, 05 Apr 2025 20:07:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:10:15.438767
- Title: Randomised Splitting Methods and Stochastic Gradient Descent
- Title(参考訳): ランダムスプリッティング法と確率的グラディエントDescence
- Authors: Luke Shaw, Peter A. Whalley,
- Abstract要約: 勾配最適化のための新しいミニバッチ戦略(Symmetric Minibatching Strategy)を導入する。
我々は,Lynov技術を用いたこの新しいミニバッチ戦略に対して,コンバージェンス保証の改善を提供する。
また、段階的なスケジュールの縮小を考慮すると、収束速度が速くなるとも論じている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We explore an explicit link between stochastic gradient descent using common batching strategies and splitting methods for ordinary differential equations. From this perspective, we introduce a new minibatching strategy (called Symmetric Minibatching Strategy) for stochastic gradient optimisation which shows greatly reduced stochastic gradient bias (from $\mathcal{O}(h^2)$ to $\mathcal{O}(h^4)$ in the optimiser stepsize $h$), when combined with momentum-based optimisers. We justify why momentum is needed to obtain the improved performance using the theory of backward analysis for splitting integrators and provide a detailed analytic computation of the stochastic gradient bias on a simple example. Further, we provide improved convergence guarantees for this new minibatching strategy using Lyapunov techniques that show reduced stochastic gradient bias for a fixed stepsize (or learning rate) over the class of strongly-convex and smooth objective functions. Via the same techniques we also improve the known results for the Random Reshuffling strategy for stochastic gradient descent methods with momentum. We argue that this also leads to a faster convergence rate when considering a decreasing stepsize schedule. Both the reduced bias and efficacy of decreasing stepsizes are demonstrated numerically on several motivating examples.
- Abstract(参考訳): 一般的なバッチ化戦略と通常の微分方程式の分割手法を用いた確率勾配降下の明示的リンクについて検討する。
この観点から、モーメントベースのオプティマイザと組み合わせた場合、確率的勾配のバイアス($\mathcal{O}(h^2)$から$\mathcal{O}(h^4)$)を大幅に減少させる確率的勾配の最適化のための新しいミニバッチ戦略(Symmetric Minibatching Strategy)を導入する。
インテグレータの後方解析理論を用いて改善性能を得るためには運動量が必要な理由を正当化し、簡単な例で確率的勾配バイアスの詳細な解析計算を行う。
さらに,Lyapunov 法を用いて,強凸関数と滑らかな目的関数のクラスに対する固定ステップサイズ(あるいは学習率)に対する確率的勾配バイアスの低減を示す新しいミニバッチ戦略の収束保証を改良した。
同じ手法により、運動量を持つ確率勾配降下法におけるランダムリシャッフル戦略の既知の結果も改善する。
また、段階的なスケジュールの縮小を考慮すると、より高速な収束率につながるとも主張する。
数種類のモチベーション例において, 段差減少のバイアス低減と有効性の両方が数値的に示された。
関連論文リスト
- An Adaptive Stochastic Gradient Method with Non-negative Gauss-Newton Stepsizes [17.804065824245402]
機械学習の応用では、各損失関数は非負であり、平方根とその実数値平方根の構成として表すことができる。
本稿では, ガウス・ニュートン法やレフスカルト法を適用して, 滑らかだが非負な関数の平均を最小化する方法を示す。
論文 参考訳(メタデータ) (2024-07-05T08:53:06Z) - Flattened one-bit stochastic gradient descent: compressed distributed optimization with controlled variance [55.01966743652196]
パラメータ・サーバ・フレームワークにおける圧縮勾配通信を用いた分散勾配降下(SGD)のための新しいアルゴリズムを提案する。
平坦な1ビット勾配勾配勾配法(FO-SGD)は2つの単純なアルゴリズムの考え方に依存している。
論文 参考訳(メタデータ) (2024-05-17T21:17:27Z) - Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - Robust Stochastic Optimization via Gradient Quantile Clipping [6.2844649973308835]
グラディエントDescent(SGD)のための量子クリッピング戦略を導入する。
通常のクリッピングチェーンとして、グラデーション・ニュー・アウトリージを使用します。
本稿では,Huberiles を用いたアルゴリズムの実装を提案する。
論文 参考訳(メタデータ) (2023-09-29T15:24:48Z) - One-step corrected projected stochastic gradient descent for statistical estimation [49.1574468325115]
これは、Fisherスコアリングアルゴリズムの1ステップで修正されたログ様関数の予測勾配勾配に基づいている。
理論およびシミュレーションにより、平均勾配勾配や適応勾配勾配の通常の勾配勾配の代替として興味深いものであることを示す。
論文 参考訳(メタデータ) (2023-06-09T13:43:07Z) - On the influence of roundoff errors on the convergence of the gradient
descent method with low-precision floating-point computation [0.0]
ゼロバイアス特性を小さな勾配を維持する確率で交換する新しいラウンドリング方式を提案する。
提案手法は,各イテレーションにおいて降下方向にある一定の丸みバイアスを生じさせる。
論文 参考訳(メタデータ) (2022-02-24T18:18:20Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Stochastic Optimization with Heavy-Tailed Noise via Accelerated Gradient
Clipping [69.9674326582747]
そこで本研究では,重み付き分散雑音を用いたスムーズな凸最適化のための,クリップ付きSSTMと呼ばれる新しい1次高速化手法を提案する。
この場合、最先端の結果を上回る新たな複雑さが証明される。
本研究は,SGDにおいて,ノイズに対する光細かな仮定を伴わずにクリッピングを施した最初の非自明な高確率複雑性境界を導出した。
論文 参考訳(メタデータ) (2020-05-21T17:05:27Z) - Non-asymptotic bounds for stochastic optimization with biased noisy
gradient oracles [8.655294504286635]
関数の測定値が推定誤差を持つ設定を捉えるために,バイアス付き勾配オラクルを導入する。
提案するオラクルは,例えば,独立分散シミュレーションと同一分散シミュレーションのバッチによるリスク計測推定の実践的な状況にある。
論文 参考訳(メタデータ) (2020-02-26T12:53:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。