論文の概要: Shuffle SGD is Always Better than SGD: Improved Analysis of SGD with
Arbitrary Data Orders
- arxiv url: http://arxiv.org/abs/2305.19259v3
- Date: Tue, 8 Aug 2023 16:05:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 16:44:12.818845
- Title: Shuffle SGD is Always Better than SGD: Improved Analysis of SGD with
Arbitrary Data Orders
- Title(参考訳): Shuffle SGD は常に SGD より優れている: 任意データ順序による SGD の解析の改善
- Authors: Anastasia Koloskova, Nikita Doikov, Sebastian U. Stich, Martin Jaggi
- Abstract要約: グラディエントDescent(SGD)アルゴリズムは、ランダムリシャッフル(RR)とシングルシャッフル(SS)を用いて、ニューラルネットワークで広く使われている。
分析の結果,ランダム単一シャッフルのSGDは古典的訓練よりも常に高速か,少なくとも良好であることが判明した。
- 参考スコア(独自算出の注目度): 75.58940599435293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic Gradient Descent (SGD) algorithms are widely used in optimizing
neural networks, with Random Reshuffling (RR) and Single Shuffle (SS) being
popular choices for cycling through random or single permutations of the
training data. However, the convergence properties of these algorithms in the
non-convex case are not fully understood. Existing results suggest that, in
realistic training scenarios where the number of epochs is smaller than the
training set size, RR may perform worse than SGD.
In this paper, we analyze a general SGD algorithm that allows for arbitrary
data orderings and show improved convergence rates for non-convex functions.
Specifically, our analysis reveals that SGD with random and single shuffling is
always faster or at least as good as classical SGD with replacement, regardless
of the number of iterations. Overall, our study highlights the benefits of
using SGD with random/single shuffling and provides new insights into its
convergence properties for non-convex optimization.
- Abstract(参考訳): 確率勾配 Descent (SGD) アルゴリズムはニューラルネットワークの最適化に広く用いられ、ランダムリシャッフル (RR) とシングルシャッフル (SS) はトレーニングデータのランダムまたは単一置換によるサイクリングの一般的な選択肢である。
しかし、非凸の場合におけるこれらのアルゴリズムの収束性は完全には理解されていない。
既存の結果から,エポックの数がトレーニングセットサイズよりも小さい現実的なトレーニングシナリオでは,RRはSGDよりも悪いパフォーマンスを示す可能性が示唆された。
本稿では,任意のデータ順序付けが可能な一般SGDアルゴリズムを解析し,非凸関数に対する収束率の向上を示す。
具体的には, ランダムかつ単一シャッフルのSGDは, イテレーション数に関係なく, 従来のSGDよりも常に高速か,少なくとも同等であることを示す。
本研究は,SGDをランダム/単一シャッフルで使用することの利点を強調し,非凸最適化のための収束特性に関する新たな知見を提供する。
関連論文リスト
- Demystifying the Myths and Legends of Nonconvex Convergence of SGD [17.445810977264067]
勾配勾配勾配(SGD)とその変種は、大規模最適化問題の解法の主要な仕事場である。
分析として,勾配の非収束に関連する神話や伝説について考察した。
論文 参考訳(メタデータ) (2023-10-19T17:58:59Z) - Gradient-free optimization of highly smooth functions: improved analysis
and a new algorithm [87.22224691317766]
この研究は、目的関数が極めて滑らかであるという仮定の下で、ゼロ次ノイズオラクル情報による問題を研究する。
ゼロオーダー射影勾配勾配アルゴリズムを2種類検討する。
論文 参考訳(メタデータ) (2023-06-03T17:05:13Z) - Variance-reduced Clipping for Non-convex Optimization [24.765794811146144]
グラディエント・クリッピング(Gradient clipping)は、大規模言語モデリングのようなディープラーニングアプリケーションで用いられる技法である。
最近の実験的な訓練は、秩序の複雑さを緩和する、非常に特別な振る舞いを持っている。
論文 参考訳(メタデータ) (2023-03-02T00:57:38Z) - Gauss-Newton Temporal Difference Learning with Nonlinear Function Approximation [11.925232472331494]
非線形関数近似を用いたQラーニング問題を解くため,ガウスニュートン時間差分法(GNTD)学習法を提案する。
各イテレーションにおいて、我々の手法は1つのガウスニュートン(GN)ステップを踏んで平均二乗ベルマン誤差(MSBE)の変種を最適化する。
いくつかのRLベンチマークにおいて、GNTDはTD型よりも高い報酬と高速な収束を示す。
論文 参考訳(メタデータ) (2023-02-25T14:14:01Z) - Optimal Stochastic Non-smooth Non-convex Optimization through
Online-to-Non-convex Conversion [56.92236659731376]
本稿では,新しい解析手法を用いて,未知の非平滑な目的を最適化するアルゴリズムを提案する。
決定論的二階スムーズな目的のために、先進的な楽観的なオンライン学習技術を適用することで、新しい$O(delta0.5)All$が最適または最もよく知られた結果の回復を可能にする。
論文 参考訳(メタデータ) (2023-02-07T22:09:20Z) - Stochastic Zeroth order Descent with Structured Directions [10.604744518360464]
我々は, 有限差分法であるStructured Zeroth Order Descent (SSZD)を導入・解析し, 集合 $lleq d 方向の勾配を近似し, $d は周囲空間の次元である。
凸凸に対して、すべての$c1/2$に対して$O( (d/l) k-c1/2$)$ 上の関数の収束はほぼ確実に証明する。
論文 参考訳(メタデータ) (2022-06-10T14:00:06Z) - Adaptive extra-gradient methods for min-max optimization and games [35.02879452114223]
本稿では,初期の反復で観測された勾配データの幾何を自動的に活用する,minmax最適化アルゴリズムの新たなファミリーを提案する。
この適応機構により,提案手法は問題がスムーズかどうかを自動的に検出する。
滑らかな問題における$mathcalO (1/varepsilon)$反復と、非滑らかな問題における$mathcalO (1/varepsilon)$反復に収束する。
論文 参考訳(メタデータ) (2020-10-22T22:54:54Z) - On the Almost Sure Convergence of Stochastic Gradient Descent in
Non-Convex Problems [75.58134963501094]
本稿では,勾配降下(SGD)の軌跡を解析する。
我々はSGDが厳格なステップサイズポリシーのために1ドルでサドルポイント/マニフォールドを避けることを示す。
論文 参考訳(メタデータ) (2020-06-19T14:11:26Z) - Gradient Free Minimax Optimization: Variance Reduction and Faster
Convergence [120.9336529957224]
本稿では、勾配のないミニマックス最適化問題の大きさを非強設定で表現する。
本稿では,新しいゼロ階分散還元降下アルゴリズムが,クエリの複雑さを最もよく表すことを示す。
論文 参考訳(メタデータ) (2020-06-16T17:55:46Z) - Complexity of Finding Stationary Points of Nonsmooth Nonconvex Functions [84.49087114959872]
非滑らかで非滑らかな関数の定常点を見つけるための最初の非漸近解析を提供する。
特に、アダマール半微分可能函数(おそらく非滑らか関数の最大のクラス)について研究する。
論文 参考訳(メタデータ) (2020-02-10T23:23:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。