論文の概要: Critical Bach Size Minimizes Stochastic First-Order Oracle Complexity of
Deep Learning Optimizer using Hyperparameters Close to One
- arxiv url: http://arxiv.org/abs/2208.09814v1
- Date: Sun, 21 Aug 2022 06:11:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 14:28:12.041074
- Title: Critical Bach Size Minimizes Stochastic First-Order Oracle Complexity of
Deep Learning Optimizer using Hyperparameters Close to One
- Title(参考訳): 臨界バッハサイズは、ハイパーパラメータを用いたディープラーニングオプティマイザの確率的一階oracle複雑性を最小化する
- Authors: Hideaki Iiduka
- Abstract要約: 学習速度が小さいこと,1に近いハイパーパラメータ,大きなバッチサイズが,損失関数を最小化するディープニューラルネットワークのモデルパラメータを見つけることができることを示す。
その結果,Adamは一定の学習率と1に近いハイパーパラメータを用いており,SFOの複雑性を最小化する臨界バッチサイズはモメンタムや勾配勾配よりも早く収束することがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Practical results have shown that deep learning optimizers using small
constant learning rates, hyperparameters close to one, and large batch sizes
can find the model parameters of deep neural networks that minimize the loss
functions. We first show theoretical evidence that the momentum method
(Momentum) and adaptive moment estimation (Adam) perform well in the sense that
the upper bound of the theoretical performance measure is small with a small
constant learning rate, hyperparameters close to one, and a large batch size.
Next, we show that there exists a batch size called the critical batch size
minimizing the stochastic first-order oracle (SFO) complexity, which is the
stochastic gradient computation cost, and that SFO complexity increases once
the batch size exceeds the critical batch size. Finally, we provide numerical
results that support our theoretical results. That is, the numerical results
indicate that Adam using a small constant learning rate, hyperparameters close
to one, and the critical batch size minimizing SFO complexity has faster
convergence than Momentum and stochastic gradient descent (SGD).
- Abstract(参考訳): 実践的な結果から、小さな定速学習率、1に近いハイパーパラメータ、大きなバッチサイズを用いたディープラーニングオプティマイザは、損失関数を最小化するディープニューラルネットワークのモデルパラメータを見つけることができる。
まず, モーメント法 (Momentum) と適応モーメント推定 (Adam) が, 理論的性能測定値の上限が小さく, 一定の学習率, ハイパーパラメータが1に近く, バッチサイズが大きいという意味で, 有効であることを示す。
次に、確率的勾配計算コストである確率的一階オラクル(SFO)の複雑性を最小化するクリティカルバッチサイズと呼ばれるバッチサイズが存在し、バッチサイズが臨界バッチサイズを超えるとSFOの複雑性が増加することを示す。
最後に、理論的結果を支持する数値結果を提供する。
すなわち,Adamが一定の学習速度,ハイパーパラメータを1に近く使用し,SFOの複雑性を最小化する臨界バッチサイズは,モメンタムや確率勾配降下(SGD)よりも早く収束することを示す。
関連論文リスト
- Iteration and Stochastic First-order Oracle Complexities of Stochastic
Gradient Descent using Constant and Decaying Learning Rates [0.8158530638728501]
本研究では,学習速度だけでなく,バッチサイズにも依存していることを示す。
その結果, 評価された臨界バッチサイズは, 理論結果から推定したサイズに近いことがわかった。
論文 参考訳(メタデータ) (2024-02-23T14:24:45Z) - Relationship between Batch Size and Number of Steps Needed for Nonconvex
Optimization of Stochastic Gradient Descent using Armijo Line Search [0.8158530638728501]
本研究では,SGDが深層数値線を用いた場合,他の深層学習ネットワークよりも優れた性能を示す。
その結果,バッチサイズが大きくなるにつれて,SFOに必要なステップ数を推定できることが示唆された。
論文 参考訳(メタデータ) (2023-07-25T21:59:17Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Minimization of Stochastic First-order Oracle Complexity of Adaptive
Methods for Nonconvex Optimization [0.0]
一階オラクル(SFO)の複雑さの下限と上限を最小化するという意味で、重要なバッチサイズが存在することを証明した。
また、SFOの複雑性が下界と上界に適合するために必要な条件についても検討し、理論的結果を支持する数値的な結果を提供する。
論文 参考訳(メタデータ) (2021-12-14T04:55:04Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z) - Fast Distributionally Robust Learning with Variance Reduced Min-Max
Optimization [85.84019017587477]
分散的ロバストな教師付き学習は、現実世界のアプリケーションのための信頼性の高い機械学習システムを構築するための重要なパラダイムとして登場している。
Wasserstein DRSLを解くための既存のアルゴリズムは、複雑なサブプロブレムを解くか、勾配を利用するのに失敗する。
我々はmin-max最適化のレンズを通してwaserstein drslを再検討し、スケーラブルで効率的に実装可能な超勾配アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-04-27T16:56:09Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - On the Generalization Benefit of Noise in Stochastic Gradient Descent [34.127525925676416]
ディープニューラルネットワークにおけるバッチ勾配勾配よりも、ミニバッチ勾配勾配がより一般化できるという主張は、長年にわたって議論されてきた。
小さいバッチサイズや中程度のバッチサイズは、テストセットにおいて非常に大きなバッチよりも大幅に優れています。
論文 参考訳(メタデータ) (2020-06-26T16:18:54Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Stochastic Proximal Gradient Algorithm with Minibatches. Application to
Large Scale Learning Models [2.384873896423002]
非滑らかな成分を持つ汎用合成対象関数に対する勾配アルゴリズムのミニバッチ変種を開発し解析する。
我々は、最小バッチサイズ$N$に対して、$mathcalO(frac1Nepsilon)$$epsilon-$subityが最適解に期待される二次距離で達成されるような、定数および変数のステップサイズ反復ポリシーの複雑さを提供する。
論文 参考訳(メタデータ) (2020-03-30T10:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。