論文の概要: Increasing Both Batch Size and Learning Rate Accelerates Stochastic Gradient Descent
- arxiv url: http://arxiv.org/abs/2409.08770v1
- Date: Fri, 13 Sep 2024 12:24:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 16:39:02.436545
- Title: Increasing Both Batch Size and Learning Rate Accelerates Stochastic Gradient Descent
- Title(参考訳): バッチサイズと学習速度の増大は確率的勾配の進行を加速させる
- Authors: Hikaru Umeda, Hideaki Iiduka,
- Abstract要約: 4つのスケジューラを用いたミニバッチ勾配降下(SGD)の理論解析を行った。
我々は,スケジューラ(i)を用いたミニバッチSGDが,経験的損失の完全な勾配ノルムの期待を最小化しているとは限らないことを示す。
また,スケジューラ (iii) や (iv) を用いることで,スケジューラ (i) や (ii) よりもスケジューラ (i) よりもスケジューラ (i) や (ii) の方がスケジューラ (iv) の完全勾配ノルムが小さくなることを示す解析結果も提供する。
- 参考スコア(独自算出の注目度): 0.6906005491572401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of mini-batch stochastic gradient descent (SGD) strongly depends on setting the batch size and learning rate to minimize the empirical loss in training the deep neural network. In this paper, we present theoretical analyses of mini-batch SGD with four schedulers: (i) constant batch size and decaying learning rate scheduler, (ii) increasing batch size and decaying learning rate scheduler, (iii) increasing batch size and increasing learning rate scheduler, and (iv) increasing batch size and warm-up decaying learning rate scheduler. We show that mini-batch SGD using scheduler (i) does not always minimize the expectation of the full gradient norm of the empirical loss, whereas it does using any of schedulers (ii), (iii), and (iv). Furthermore, schedulers (iii) and (iv) accelerate mini-batch SGD. The paper also provides numerical results of supporting analyses showing that using scheduler (iii) or (iv) minimizes the full gradient norm of the empirical loss faster than using scheduler (i) or (ii).
- Abstract(参考訳): ミニバッチ確率勾配降下(SGD)の性能は、ディープニューラルネットワークのトレーニングにおける経験的損失を最小限に抑えるためにバッチサイズと学習率の設定に強く依存する。
本稿では,4つのスケジューラを用いたミニバッチSGDの理論解析について述べる。
一 一定のバッチサイズ及び減衰学習率スケジューラ
(ii)バッチサイズの増加と学習速度の低下
三 バッチサイズの増加及び学習率スケジューラの増加
(4) バッチサイズの増加と温暖化学習率スケジューラ。
スケジューラを用いたミニバッチSGDについて示す。
i) 必ずしも経験的損失の完全な勾配ノルムの期待を最小化するわけではないが、スケジューラは一切使用しない。
(ii)
(三)及び(三)
(4)。
さらにスケジューラ
(三)及び(三)
(4)ミニバッチSGDを加速する。
また,スケジューラを用いた解析結果の数値化も行う。
(iii)?
(iv)スケジューラを使用するよりも高速に経験的損失の完全な勾配ノルムを最小化する
(i)または
(II)。
関連論文リスト
- HyperbolicLR: Epoch insensitive learning rate scheduler [0.0]
本研究では,双曲型学習率スケジューリング器(HyperbolicLR)と指数型双曲型学習率スケジューリング器(ExpHyperbolicLR)の2つの新しい学習率スケジューラを提案する。
これらのスケジューラは、エポックの数を調整する際に、従来のスケジューラでよく見られる不整合学習曲線に対処しようとする。
双曲曲線の挙動を活用することにより、提案したスケジューラは、様々なエポックな設定でより一貫した学習曲線を維持できる。
論文 参考訳(メタデータ) (2024-07-21T15:43:52Z) - Probabilistic learning rate scheduler with provable convergence [7.494722456816369]
学習率スケジューラは、実際に学習アルゴリズムの収束を加速することに成功した。
しかしながら、それらの最小限への収束は理論的には証明されていない。
単調に減少する条件に適合しない確率論的学習率スケジューラ(PLRS)を提案する。
論文 参考訳(メタデータ) (2024-07-10T12:52:24Z) - Learning Rate Schedules in the Presence of Distribution Shift [18.310336156637774]
我々は、変化するデータ分布の存在下で、後悔するネットワークが累積的に学習する学習スケジュールを設計する。
我々は, 高次元回帰モデルを用いて, 後悔モデルを増加させる実験を行った。
論文 参考訳(メタデータ) (2023-03-27T23:29:02Z) - On the Stability and Generalization of Triplet Learning [55.75784102837832]
トリプルトラーニング(トリプルトラーニング)、すなわちトリプルトデータから学ぶことは、コンピュータビジョンタスクに大きな注目を集めている。
本稿では,安定解析を利用した三重項学習の一般化保証について検討する。
論文 参考訳(メタデータ) (2023-02-20T07:32:50Z) - Q-Ensemble for Offline RL: Don't Scale the Ensemble, Scale the Batch
Size [58.762959061522736]
学習速度を適切に調整したミニバッチサイズをスケールすることで、トレーニングプロセスを桁違いに高速化できることを示す。
そこで本研究では,(1)Qアンサンブルの縮小,(2)分配行動の厳格化,(3)収束時間の改善など,ミニバッチサイズを拡大し,学習率を経時的に調整できることを示す。
論文 参考訳(メタデータ) (2022-11-20T21:48:25Z) - Learning Rate Perturbation: A Generic Plugin of Learning Rate Schedule
towards Flatter Local Minima [40.70374106466073]
LEAP(LEArning Rate Perturbation)と呼ばれる一般学習率スケジュールプラグインを提案する。
LEAPは、学習率に一定の摂動を導入することにより、モデルトレーニングを改善するために、様々な学習率スケジュールに適用することができる。
LEAPを用いたトレーニングにより、多様なデータセット上での様々なディープラーニングモデルの性能を向上させることができることを示す広範な実験を行う。
論文 参考訳(メタデータ) (2022-08-25T05:05:18Z) - Existence and Estimation of Critical Batch Size for Training Generative
Adversarial Networks with Two Time-Scale Update Rule [0.2741266294612775]
これまで、異なる学習率を用いた2つの時間スケール更新ルール(TTUR)が、理論および実際におけるGAN(Generative Adversarial Network)のトレーニングに有用であることが示されてきた。
本稿では,一定の学習率に基づいて,バッチサイズとGANをTTURで訓練するために必要なステップ数との関係について検討する。
論文 参考訳(メタデータ) (2022-01-28T08:52:01Z) - Critical Parameters for Scalable Distributed Learning with Large Batches
and Asynchronous Updates [67.19481956584465]
飽和を伴う分散トレーニング(SGD)の効率は、バッチサイズと、実装における停滞に決定的に依存することが実験的に観察されている。
結果がタイトであることを示し、数値実験で重要な結果を示しています。
論文 参考訳(メタデータ) (2021-03-03T12:08:23Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。