論文の概要: Minimization of Stochastic First-order Oracle Complexity of Adaptive
Methods for Nonconvex Optimization
- arxiv url: http://arxiv.org/abs/2112.07163v2
- Date: Thu, 16 Dec 2021 06:24:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 13:00:39.097791
- Title: Minimization of Stochastic First-order Oracle Complexity of Adaptive
Methods for Nonconvex Optimization
- Title(参考訳): 非凸最適化のための適応手法の確率的一階Oracle複雑性の最小化
- Authors: Hideaki Iiduka
- Abstract要約: 一階オラクル(SFO)の複雑さの下限と上限を最小化するという意味で、重要なバッチサイズが存在することを証明した。
また、SFOの複雑性が下界と上界に適合するために必要な条件についても検討し、理論的結果を支持する数値的な結果を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Numerical evaluations have definitively shown that, for deep learning
optimizers such as stochastic gradient descent, momentum, and adaptive methods,
the number of steps needed to train a deep neural network halves for each
doubling of the batch size and that there is a region of diminishing returns
beyond the critical batch size. In this paper, we determine the actual critical
batch size by using the global minimizer of the stochastic first-order oracle
(SFO) complexity of the optimizer. To prove the existence of the actual
critical batch size, we set the lower and upper bounds of the SFO complexity
and prove that there exist critical batch sizes in the sense of minimizing the
lower and upper bounds. This proof implies that, if the SFO complexity fits the
lower and upper bounds, then the existence of these critical batch sizes
demonstrates the existence of the actual critical batch size. We also discuss
the conditions needed for the SFO complexity to fit the lower and upper bounds
and provide numerical results that support our theoretical results.
- Abstract(参考訳): 数値的な評価は、確率勾配降下、運動量、適応法などのディープラーニング最適化において、バッチサイズを2倍にするごとにディープニューラルネットワークを訓練するために必要なステップの数と、臨界バッチサイズを超えるリターンが減少する領域があることを確実に示している。
本稿では,オプティマイザの確率的一階oracle (sfo) 複雑性のグローバル最小化器を用いて,実際の臨界バッチサイズを決定する。
実臨界バッチサイズの存在を証明するため、SFOの複雑さの下限と上限を設定し、下限と上限を最小化するという意味で臨界バッチサイズが存在することを証明した。
この証明は、SFO複雑性が下界と上界に適合するならば、これらの臨界バッチサイズの存在は、実際の臨界バッチサイズの存在を証明していることを示している。
また,sfo複雑性が下界と上界に適合するために必要な条件を議論し,理論結果を支える数値結果を提供する。
関連論文リスト
- Stochastic Zeroth-Order Optimization under Strongly Convexity and Lipschitz Hessian: Minimax Sample Complexity [59.75300530380427]
本稿では,アルゴリズムが検索対象関数の雑音評価にのみアクセス可能な2次スムーズかつ強い凸関数を最適化する問題を考察する。
本研究は, ミニマックス単純後悔率について, 一致した上界と下界を発達させることにより, 初めて厳密な評価を行ったものである。
論文 参考訳(メタデータ) (2024-06-28T02:56:22Z) - Iteration and Stochastic First-order Oracle Complexities of Stochastic
Gradient Descent using Constant and Decaying Learning Rates [0.8158530638728501]
本研究では,学習速度だけでなく,バッチサイズにも依存していることを示す。
その結果, 評価された臨界バッチサイズは, 理論結果から推定したサイズに近いことがわかった。
論文 参考訳(メタデータ) (2024-02-23T14:24:45Z) - Faster Stochastic Variance Reduction Methods for Compositional MiniMax
Optimization [50.10952609321302]
合成ミニマックス最適化は、さまざまな機械学習領域において重要な課題である。
構成最小最適化の現在の方法は、最適以下の複雑さや、大きなバッチサイズに大きく依存することによって悩まされている。
本稿では,Nested STOchastic Recursive Momentum (NSTORM)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-18T14:57:21Z) - Relationship between Batch Size and Number of Steps Needed for Nonconvex
Optimization of Stochastic Gradient Descent using Armijo Line Search [0.8158530638728501]
本研究では,SGDが深層数値線を用いた場合,他の深層学習ネットワークよりも優れた性能を示す。
その結果,バッチサイズが大きくなるにつれて,SFOに必要なステップ数を推定できることが示唆された。
論文 参考訳(メタデータ) (2023-07-25T21:59:17Z) - Asymptotically Unbiased Instance-wise Regularized Partial AUC
Optimization: Theory and Algorithm [101.44676036551537]
One-way partial AUC (OPAUC) と Two-way partial AUC (TPAUC) はバイナリ分類器の平均性能を測定する。
既存の手法のほとんどはPAUCをほぼ最適化するしかなく、制御不能なバイアスにつながる。
本稿では,分散ロバスト最適化AUCによるPAUC問題の簡易化について述べる。
論文 参考訳(メタデータ) (2022-10-08T08:26:22Z) - Critical Bach Size Minimizes Stochastic First-Order Oracle Complexity of
Deep Learning Optimizer using Hyperparameters Close to One [0.0]
学習速度が小さいこと,1に近いハイパーパラメータ,大きなバッチサイズが,損失関数を最小化するディープニューラルネットワークのモデルパラメータを見つけることができることを示す。
その結果,Adamは一定の学習率と1に近いハイパーパラメータを用いており,SFOの複雑性を最小化する臨界バッチサイズはモメンタムや勾配勾配よりも早く収束することがわかった。
論文 参考訳(メタデータ) (2022-08-21T06:11:23Z) - Large-scale Optimization of Partial AUC in a Range of False Positive
Rates [51.12047280149546]
ROC曲線 (AUC) の下の領域は、機械学習において最も広く使われている分類モデルのパフォーマンス指標の1つである。
近年の封筒平滑化技術に基づく効率的な近似勾配降下法を開発した。
提案アルゴリズムは,効率のよい解法を欠くランク付けされた範囲損失の和を最小化するためにも利用できる。
論文 参考訳(メタデータ) (2022-03-03T03:46:18Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。