論文の概要: Relationship between Batch Size and Number of Steps Needed for Nonconvex
Optimization of Stochastic Gradient Descent using Armijo Line Search
- arxiv url: http://arxiv.org/abs/2307.13831v3
- Date: Mon, 20 Nov 2023 10:57:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 18:34:45.245981
- Title: Relationship between Batch Size and Number of Steps Needed for Nonconvex
Optimization of Stochastic Gradient Descent using Armijo Line Search
- Title(参考訳): アルミジョ線探索による確率勾配降下の非凸最適化に必要なバッチサイズとステップ数の関係
- Authors: Yuki Tsukada, Hideaki Iiduka
- Abstract要約: 我々はArmijo法を用いてSGDの収束解析を行う。
数値的な結果は,バッチサイズが大きくなるにつれて,ディープニューラルネットワークに必要なステップの数が減少することを示している。
- 参考スコア(独自算出の注目度): 0.8158530638728501
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic gradient descent (SGD) is the simplest deep learning optimizer
with which to train deep neural networks. While SGD can use various learning
rates, such as constant or diminishing rates, the previous numerical results
showed that SGD performs better than other deep learning optimizers using when
it uses learning rates given by line search methods. In this paper, we perform
a convergence analysis on SGD with a learning rate given by an Armijo line
search for nonconvex optimization. The analysis indicates that the upper bound
of the expectation of the squared norm of the full gradient becomes small when
the number of steps and the batch size are large. Next, we show that, for SGD
with the Armijo-line-search learning rate, the number of steps needed for
nonconvex optimization is a monotone decreasing convex function of the batch
size; that is, the number of steps needed for nonconvex optimization decreases
as the batch size increases. Furthermore, we show that the stochastic
first-order oracle (SFO) complexity, which is the stochastic gradient
computation cost, is a convex function of the batch size; that is, there exists
a critical batch size that minimizes the SFO complexity. Finally, we provide
numerical results that support our theoretical results. The numerical results
indicate that the number of steps needed for training deep neural networks
decreases as the batch size increases and that there exist the critical batch
sizes that can be estimated from the theoretical results.
- Abstract(参考訳): 確率勾配降下(SGD)は、ディープニューラルネットワークをトレーニングする最も単純なディープラーニングオプティマイザである。
SGDは、定数や減少率などの様々な学習率を使用することができるが、以前の数値結果は、ラインサーチ法で与えられた学習率を使用する場合、他のディープラーニングオプティマイザよりも優れた性能を示した。
本稿では,非凸最適化のためのArmijoライン探索によって与えられる学習率を用いて,SGDの収束解析を行う。
解析の結果,ステップ数とバッチサイズが大きいと,全勾配の2乗ノルムの期待値の上限が小さくなることがわかった。
次に、Armijo-line-search 学習率を持つSGDの場合、非凸最適化に必要なステップの数は、バッチサイズの単調減少凸関数であり、非凸最適化に必要なステップの数は、バッチサイズが大きくなるにつれて減少することを示す。
さらに、確率的勾配計算コストである確率的一階オラクル(SFO)の複雑性は、バッチサイズの凸関数であり、すなわち、SFOの複雑性を最小限に抑える重要なバッチサイズが存在することを示す。
最後に、理論的結果を支持する数値結果を提供する。
計算結果から,ディープニューラルネットワークの訓練に必要なステップ数は,バッチサイズの増加に伴って減少し,理論結果から推定可能なクリティカルバッチサイズが存在することが示された。
関連論文リスト
- Iteration and Stochastic First-order Oracle Complexities of Stochastic
Gradient Descent using Constant and Decaying Learning Rates [0.8158530638728501]
本研究では,学習速度だけでなく,バッチサイズにも依存していることを示す。
その結果, 評価された臨界バッチサイズは, 理論結果から推定したサイズに近いことがわかった。
論文 参考訳(メタデータ) (2024-02-23T14:24:45Z) - Ordering for Non-Replacement SGD [7.11967773739707]
我々は,アルゴリズムの非置換形式に対する収束率を改善する順序付けを求める。
我々は,強い凸関数と凸関数のステップサイズを一定かつ小さくするための最適順序付けを開発する。
さらに、注文とミニバッチを組み合わせることで、より複雑なニューラルネットワークにも適用できます。
論文 参考訳(メタデータ) (2023-06-28T00:46:58Z) - Convergence of the mini-batch SIHT algorithm [0.0]
Iterative Hard Thresholding (IHT)アルゴリズムはスパース最適化の効果的な決定論的アルゴリズムとして広く検討されている。
スパースミニバッチSIHTが生成したシーケンスはスーパーマーチンゲールシーケンスであり、確率1と収束することを示す。
論文 参考訳(メタデータ) (2022-09-29T03:47:46Z) - Critical Bach Size Minimizes Stochastic First-Order Oracle Complexity of
Deep Learning Optimizer using Hyperparameters Close to One [0.0]
学習速度が小さいこと,1に近いハイパーパラメータ,大きなバッチサイズが,損失関数を最小化するディープニューラルネットワークのモデルパラメータを見つけることができることを示す。
その結果,Adamは一定の学習率と1に近いハイパーパラメータを用いており,SFOの複雑性を最小化する臨界バッチサイズはモメンタムや勾配勾配よりも早く収束することがわかった。
論文 参考訳(メタデータ) (2022-08-21T06:11:23Z) - Faster One-Sample Stochastic Conditional Gradient Method for Composite
Convex Minimization [61.26619639722804]
滑らかで非滑らかな項の和として形成される凸有限サム目標を最小化するための条件勾配法(CGM)を提案する。
提案手法は, 平均勾配 (SAG) 推定器を備え, 1回に1回のサンプルしか必要としないが, より高度な分散低減技術と同等の高速収束速度を保証できる。
論文 参考訳(メタデータ) (2022-02-26T19:10:48Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - Exploiting Higher Order Smoothness in Derivative-free Optimization and
Continuous Bandits [99.70167985955352]
強凸関数のゼロ次最適化問題について検討する。
予測勾配降下アルゴリズムのランダム化近似を考察する。
その結果,0次アルゴリズムはサンプルの複雑性や問題パラメータの点でほぼ最適であることが示唆された。
論文 参考訳(メタデータ) (2020-06-14T10:42:23Z) - Variance Reduction with Sparse Gradients [82.41780420431205]
SVRGやSpiderBoostのような分散還元法では、大きなバッチ勾配と小さなバッチ勾配が混在している。
我々は、新しい空間演算子:ランダムトップk演算子を導入する。
我々のアルゴリズムは、画像分類、自然言語処理、スパース行列分解など様々なタスクにおいて、一貫してSpiderBoostより優れています。
論文 参考訳(メタデータ) (2020-01-27T08:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。