論文の概要: Increasing Both Batch Size and Learning Rate Accelerates Stochastic Gradient Descent
- arxiv url: http://arxiv.org/abs/2409.08770v2
- Date: Wed, 16 Oct 2024 14:14:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 21:09:04.536165
- Title: Increasing Both Batch Size and Learning Rate Accelerates Stochastic Gradient Descent
- Title(参考訳): バッチサイズと学習速度の増大は確率的勾配の進行を加速させる
- Authors: Hikaru Umeda, Hideaki Iiduka,
- Abstract要約: 4つのスケジューラを用いたミニバッチ勾配降下(SGD)の理論解析を行った。
我々は,スケジューラ(i)を用いたミニバッチSGDが,経験的損失の完全な勾配ノルムの期待を最小化しているとは限らないことを示す。
また,スケジューラ (iii) や (iv) を用いることで,スケジューラ (i) や (ii) よりもスケジューラ (i) よりもスケジューラ (i) や (ii) の方がスケジューラ (iv) の完全勾配ノルムが小さくなることを示す解析結果も提供する。
- 参考スコア(独自算出の注目度): 0.6906005491572401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of mini-batch stochastic gradient descent (SGD) strongly depends on setting the batch size and learning rate to minimize the empirical loss in training the deep neural network. In this paper, we present theoretical analyses of mini-batch SGD with four schedulers: (i) constant batch size and decaying learning rate scheduler, (ii) increasing batch size and decaying learning rate scheduler, (iii) increasing batch size and increasing learning rate scheduler, and (iv) increasing batch size and warm-up decaying learning rate scheduler. We show that mini-batch SGD using scheduler (i) does not always minimize the expectation of the full gradient norm of the empirical loss, whereas it does using any of schedulers (ii), (iii), and (iv). Furthermore, schedulers (iii) and (iv) accelerate mini-batch SGD. The paper also provides numerical results of supporting analyses showing that using scheduler (iii) or (iv) minimizes the full gradient norm of the empirical loss faster than using scheduler (i) or (ii).
- Abstract(参考訳): ミニバッチ確率勾配降下(SGD)の性能は、ディープニューラルネットワークのトレーニングにおける経験的損失を最小限に抑えるためにバッチサイズと学習率の設定に強く依存する。
本稿では,4つのスケジューラを用いたミニバッチSGDの理論解析について述べる。
一 一定のバッチサイズ及び減衰学習率スケジューラ
(ii)バッチサイズの増加と学習速度の低下
三 バッチサイズの増加及び学習率スケジューラの増加
(4) バッチサイズの増加と温暖化学習率スケジューラ。
スケジューラを用いたミニバッチSGDについて示す。
i) 必ずしも経験的損失の完全な勾配ノルムの期待を最小化するわけではないが、スケジューラは一切使用しない。
(ii)
(三)及び(三)
(4)。
さらにスケジューラ
(三)及び(三)
(4)ミニバッチSGDを加速する。
また,スケジューラを用いた解析結果の数値化も行う。
(iii)?
(iv)スケジューラを使用するよりも高速に経験的損失の完全な勾配ノルムを最小化する
(i)または
(II)。
関連論文リスト
- Anytime Pretraining: Horizon-Free Learning-Rate Schedules with Weight Averaging [70.05077723711618]
本研究では, 1-32xChinchillaスケールで学習した言語モデルが時間とともに減衰し, 問題の発生源とキャパシティ条件によって減衰速度が決定されることを示した。
以上の結果から,重み付き平均化と地平線なしのステップサイズを組み合わせることで,大規模言語モデルの事前学習におけるコサイン学習率のスケジュールに代わる実用的で効果的な選択肢が得られることが示唆された。
論文 参考訳(メタデータ) (2026-02-03T16:24:05Z) - Dynamic Learning Rate Scheduling based on Loss Changes Leads to Faster Convergence [2.1665689529884697]
emphGreedyLRは、トレーニング中に現在の損失に基づいて学習率を適応的に調整する新しいスケジューラである。
提案手法は, 精度, 速度, 収束の点で, 最先端のスケジューラよりも優れている。
論文 参考訳(メタデータ) (2025-12-16T16:03:52Z) - Seesaw: Accelerating Training by Balancing Learning Rate and Batch Size Scheduling [75.36692892951018]
トレーニング中のバッチサイズの増加は、大規模な言語モデルの事前トレーニングを加速するための有望な戦略である。
この研究はバッチサイズスケジューリングのための原則化されたフレームワークを開発する。
標準スケジューラが学習率を半減するたびに、Seesawは1/sqrt2$と倍増し、バッチサイズを倍増します。
論文 参考訳(メタデータ) (2025-10-16T14:17:38Z) - CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs [53.749193998004166]
カリキュラム学習は,大規模言語モデルの学習効率を高める上で重要な役割を担っている。
収束を加速し,計算オーバーヘッドを最小限に抑えるためにベイズ後続推定を用いた効率的な学習法であるCurESを提案する。
論文 参考訳(メタデータ) (2025-10-01T15:41:27Z) - Adaptive Batch Size and Learning Rate Scheduler for Stochastic Gradient Descent Based on Minimization of Stochastic First-order Oracle Complexity [0.6906005491572401]
ミニバッチ勾配降下(SGD)の収束挙動はバッチサイズと学習速度設定に非常に敏感である。
最近の理論的研究により、第一次オラクルの複雑さを最小限に抑える臨界バッチサイズの存在が確認されている。
臨界バッチサイズに関する理論的な知見を生かしたSGDを高速化するための適応スケジューリング戦略が導入された。
論文 参考訳(メタデータ) (2025-08-07T12:00:53Z) - Optimal Growth Schedules for Batch Size and Learning Rate in SGD that Reduce SFO Complexity [0.6906005491572401]
計算勾配法におけるバッチサイズと学習速度のスケジューリングは効率を低下させ、収束を損なう。
理論的には,SFOの複雑性を低減させるバッチサイズと学習率の最適な成長スケジュールを導出した。
本結果は,ディープラーニングにおける大規模バッチ学習をスケーラブルかつ効率的に行うための理論的知見と実践的ガイドラインの両方を提供する。
論文 参考訳(メタデータ) (2025-08-07T11:52:25Z) - Accelerating SGDM via Learning Rate and Batch Size Schedules: A Lyapunov-Based Analysis [7.2620484413601325]
本研究では,動的学習速度およびバッチサイズスケジュール下での勾配降下運動量(SGDM)の収束挙動を解析した。
我々は既存の理論フレームワークを拡張し、ディープラーニングでよく使われる3つの実用的なスケジューリング戦略をカバーする。
一定のバッチサイズは期待されるノルムの収束を保証しないが、バッチサイズの増加は保証しておらず、同時にバッチサイズと学習率の増大は、確実に早く崩壊する。
論文 参考訳(メタデータ) (2025-08-05T05:32:36Z) - A Multi-Power Law for Loss Curve Prediction Across Learning Rate Schedules [67.87680482844884]
本稿では,大規模言語モデルの事前学習損失が,学習率の異なるスケジュール下でどのように進展するかを示す経験則を提案する。
提案法は,学習率の総和に基づく電力法則と,学習率減衰による損失低減効果を考慮した電力法とを併用した多大電力法である。
論文 参考訳(メタデータ) (2025-03-17T04:36:45Z) - Increasing Batch Size Improves Convergence of Stochastic Gradient Descent with Momentum [0.6906005491572401]
運動量による勾配降下(SGDM)は理論と実践の両方でよく研究されている。
学習速度と運動量重みが一定であるミニバッチSGDMに着目した。
論文 参考訳(メタデータ) (2025-01-15T15:53:27Z) - HyperbolicLR: Epoch insensitive learning rate scheduler [0.0]
本研究では,双曲型学習率スケジューリング器(HyperbolicLR)と指数型双曲型学習率スケジューリング器(ExpHyperbolicLR)の2つの新しい学習率スケジューラを提案する。
これらのスケジューラは、エポックの数を調整する際に、従来のスケジューラでよく見られる不整合学習曲線に対処しようとする。
双曲曲線の挙動を活用することにより、提案したスケジューラは、様々なエポックな設定でより一貫した学習曲線を維持できる。
論文 参考訳(メタデータ) (2024-07-21T15:43:52Z) - Probabilistic learning rate scheduler with provable convergence [7.494722456816369]
学習率スケジューラは、実際に学習アルゴリズムの収束を加速することに成功した。
しかしながら、それらの最小限への収束は理論的には証明されていない。
単調に減少する条件に適合しない確率論的学習率スケジューラ(PLRS)を提案する。
論文 参考訳(メタデータ) (2024-07-10T12:52:24Z) - Learning Rate Schedules in the Presence of Distribution Shift [18.310336156637774]
我々は、変化するデータ分布の存在下で、後悔するネットワークが累積的に学習する学習スケジュールを設計する。
我々は, 高次元回帰モデルを用いて, 後悔モデルを増加させる実験を行った。
論文 参考訳(メタデータ) (2023-03-27T23:29:02Z) - On the Stability and Generalization of Triplet Learning [55.75784102837832]
トリプルトラーニング(トリプルトラーニング)、すなわちトリプルトデータから学ぶことは、コンピュータビジョンタスクに大きな注目を集めている。
本稿では,安定解析を利用した三重項学習の一般化保証について検討する。
論文 参考訳(メタデータ) (2023-02-20T07:32:50Z) - Q-Ensemble for Offline RL: Don't Scale the Ensemble, Scale the Batch
Size [58.762959061522736]
学習速度を適切に調整したミニバッチサイズをスケールすることで、トレーニングプロセスを桁違いに高速化できることを示す。
そこで本研究では,(1)Qアンサンブルの縮小,(2)分配行動の厳格化,(3)収束時間の改善など,ミニバッチサイズを拡大し,学習率を経時的に調整できることを示す。
論文 参考訳(メタデータ) (2022-11-20T21:48:25Z) - Learning Rate Perturbation: A Generic Plugin of Learning Rate Schedule
towards Flatter Local Minima [40.70374106466073]
LEAP(LEArning Rate Perturbation)と呼ばれる一般学習率スケジュールプラグインを提案する。
LEAPは、学習率に一定の摂動を導入することにより、モデルトレーニングを改善するために、様々な学習率スケジュールに適用することができる。
LEAPを用いたトレーニングにより、多様なデータセット上での様々なディープラーニングモデルの性能を向上させることができることを示す広範な実験を行う。
論文 参考訳(メタデータ) (2022-08-25T05:05:18Z) - Existence and Estimation of Critical Batch Size for Training Generative
Adversarial Networks with Two Time-Scale Update Rule [0.2741266294612775]
これまで、異なる学習率を用いた2つの時間スケール更新ルール(TTUR)が、理論および実際におけるGAN(Generative Adversarial Network)のトレーニングに有用であることが示されてきた。
本稿では,一定の学習率に基づいて,バッチサイズとGANをTTURで訓練するために必要なステップ数との関係について検討する。
論文 参考訳(メタデータ) (2022-01-28T08:52:01Z) - Critical Parameters for Scalable Distributed Learning with Large Batches
and Asynchronous Updates [67.19481956584465]
飽和を伴う分散トレーニング(SGD)の効率は、バッチサイズと、実装における停滞に決定的に依存することが実験的に観察されている。
結果がタイトであることを示し、数値実験で重要な結果を示しています。
論文 参考訳(メタデータ) (2021-03-03T12:08:23Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。