Fugu-MT 論文翻訳(概要): Increasing Both Batch Size and Learning Rate Accelerates Stochastic Gradient Descent

論文の概要: Increasing Both Batch Size and Learning Rate Accelerates Stochastic Gradient Descent

arxiv url: http://arxiv.org/abs/2409.08770v1
Date: Fri, 13 Sep 2024 12:24:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-16 16:39:02.436545
Title: Increasing Both Batch Size and Learning Rate Accelerates Stochastic Gradient Descent
Title（参考訳）: バッチサイズと学習速度の増大は確率的勾配の進行を加速させる
Authors: Hikaru Umeda, Hideaki Iiduka,
Abstract要約: 4つのスケジューラを用いたミニバッチ勾配降下(SGD)の理論解析を行った。我々は,スケジューラ(i)を用いたミニバッチSGDが,経験的損失の完全な勾配ノルムの期待を最小化しているとは限らないことを示す。また,スケジューラ (iii) や (iv) を用いることで,スケジューラ (i) や (ii) よりもスケジューラ (i) よりもスケジューラ (i) や (ii) の方がスケジューラ (iv) の完全勾配ノルムが小さくなることを示す解析結果も提供する。
参考スコア（独自算出の注目度）: 0.6906005491572401
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The performance of mini-batch stochastic gradient descent (SGD) strongly depends on setting the batch size and learning rate to minimize the empirical loss in training the deep neural network. In this paper, we present theoretical analyses of mini-batch SGD with four schedulers: (i) constant batch size and decaying learning rate scheduler, (ii) increasing batch size and decaying learning rate scheduler, (iii) increasing batch size and increasing learning rate scheduler, and (iv) increasing batch size and warm-up decaying learning rate scheduler. We show that mini-batch SGD using scheduler (i) does not always minimize the expectation of the full gradient norm of the empirical loss, whereas it does using any of schedulers (ii), (iii), and (iv). Furthermore, schedulers (iii) and (iv) accelerate mini-batch SGD. The paper also provides numerical results of supporting analyses showing that using scheduler (iii) or (iv) minimizes the full gradient norm of the empirical loss faster than using scheduler (i) or (ii).
Abstract（参考訳）: ミニバッチ確率勾配降下(SGD)の性能は、ディープニューラルネットワークのトレーニングにおける経験的損失を最小限に抑えるためにバッチサイズと学習率の設定に強く依存する。本稿では,4つのスケジューラを用いたミニバッチSGDの理論解析について述べる。一一定のバッチサイズ及び減衰学習率スケジューラ (ii)バッチサイズの増加と学習速度の低下三バッチサイズの増加及び学習率スケジューラの増加 (4) バッチサイズの増加と温暖化学習率スケジューラ。スケジューラを用いたミニバッチSGDについて示す。 i) 必ずしも経験的損失の完全な勾配ノルムの期待を最小化するわけではないが、スケジューラは一切使用しない。 (ii) (三)及び(三) (4)。さらにスケジューラ (三)及び(三) (4)ミニバッチSGDを加速する。また,スケジューラを用いた解析結果の数値化も行う。 (iii)? (iv)スケジューラを使用するよりも高速に経験的損失の完全な勾配ノルムを最小化する (i)または (II)。

関連論文リスト

Adaptive Batch Size and Learning Rate Scheduler for Stochastic Gradient Descent Based on Minimization of Stochastic First-order Oracle Complexity [0.6906005491572401]
ミニバッチ勾配降下(SGD)の収束挙動はバッチサイズと学習速度設定に非常に敏感である。最近の理論的研究により、第一次オラクルの複雑さを最小限に抑える臨界バッチサイズの存在が確認されている。臨界バッチサイズに関する理論的な知見を生かしたSGDを高速化するための適応スケジューリング戦略が導入された。
論文参考訳（メタデータ） (2025-08-07T12:00:53Z)
Optimal Growth Schedules for Batch Size and Learning Rate in SGD that Reduce SFO Complexity [0.6906005491572401]
計算勾配法におけるバッチサイズと学習速度のスケジューリングは効率を低下させ、収束を損なう。理論的には,SFOの複雑性を低減させるバッチサイズと学習率の最適な成長スケジュールを導出した。本結果は,ディープラーニングにおける大規模バッチ学習をスケーラブルかつ効率的に行うための理論的知見と実践的ガイドラインの両方を提供する。
論文参考訳（メタデータ） (2025-08-07T11:52:25Z)
A Multi-Power Law for Loss Curve Prediction Across Learning Rate Schedules [67.87680482844884]
本稿では,大規模言語モデルの事前学習損失が,学習率の異なるスケジュール下でどのように進展するかを示す経験則を提案する。提案法は,学習率の総和に基づく電力法則と,学習率減衰による損失低減効果を考慮した電力法とを併用した多大電力法である。
論文参考訳（メタデータ） (2025-03-17T04:36:45Z)
Increasing Batch Size Improves Convergence of Stochastic Gradient Descent with Momentum [0.6906005491572401]
運動量による勾配降下(SGDM)は理論と実践の両方でよく研究されている。学習速度と運動量重みが一定であるミニバッチSGDMに着目した。
論文参考訳（メタデータ） (2025-01-15T15:53:27Z)
HyperbolicLR: Epoch insensitive learning rate scheduler [0.0]
本研究では,双曲型学習率スケジューリング器(HyperbolicLR)と指数型双曲型学習率スケジューリング器(ExpHyperbolicLR)の2つの新しい学習率スケジューラを提案する。これらのスケジューラは、エポックの数を調整する際に、従来のスケジューラでよく見られる不整合学習曲線に対処しようとする。双曲曲線の挙動を活用することにより、提案したスケジューラは、様々なエポックな設定でより一貫した学習曲線を維持できる。
論文参考訳（メタデータ） (2024-07-21T15:43:52Z)
Probabilistic learning rate scheduler with provable convergence [7.494722456816369]
学習率スケジューラは、実際に学習アルゴリズムの収束を加速することに成功した。しかしながら、それらの最小限への収束は理論的には証明されていない。単調に減少する条件に適合しない確率論的学習率スケジューラ(PLRS)を提案する。
論文参考訳（メタデータ） (2024-07-10T12:52:24Z)
Learning Rate Schedules in the Presence of Distribution Shift [18.310336156637774]
我々は、変化するデータ分布の存在下で、後悔するネットワークが累積的に学習する学習スケジュールを設計する。我々は, 高次元回帰モデルを用いて, 後悔モデルを増加させる実験を行った。
論文参考訳（メタデータ） (2023-03-27T23:29:02Z)
On the Stability and Generalization of Triplet Learning [55.75784102837832]
トリプルトラーニング(トリプルトラーニング)、すなわちトリプルトデータから学ぶことは、コンピュータビジョンタスクに大きな注目を集めている。本稿では,安定解析を利用した三重項学習の一般化保証について検討する。
論文参考訳（メタデータ） (2023-02-20T07:32:50Z)
Q-Ensemble for Offline RL: Don't Scale the Ensemble, Scale the Batch Size [58.762959061522736]
学習速度を適切に調整したミニバッチサイズをスケールすることで、トレーニングプロセスを桁違いに高速化できることを示す。そこで本研究では,(1)Qアンサンブルの縮小,(2)分配行動の厳格化,(3)収束時間の改善など,ミニバッチサイズを拡大し,学習率を経時的に調整できることを示す。
論文参考訳（メタデータ） (2022-11-20T21:48:25Z)
Learning Rate Perturbation: A Generic Plugin of Learning Rate Schedule towards Flatter Local Minima [40.70374106466073]
LEAP(LEArning Rate Perturbation)と呼ばれる一般学習率スケジュールプラグインを提案する。 LEAPは、学習率に一定の摂動を導入することにより、モデルトレーニングを改善するために、様々な学習率スケジュールに適用することができる。 LEAPを用いたトレーニングにより、多様なデータセット上での様々なディープラーニングモデルの性能を向上させることができることを示す広範な実験を行う。
論文参考訳（メタデータ） (2022-08-25T05:05:18Z)
Existence and Estimation of Critical Batch Size for Training Generative Adversarial Networks with Two Time-Scale Update Rule [0.2741266294612775]
これまで、異なる学習率を用いた2つの時間スケール更新ルール(TTUR)が、理論および実際におけるGAN(Generative Adversarial Network)のトレーニングに有用であることが示されてきた。本稿では,一定の学習率に基づいて,バッチサイズとGANをTTURで訓練するために必要なステップ数との関係について検討する。
論文参考訳（メタデータ） (2022-01-28T08:52:01Z)
Critical Parameters for Scalable Distributed Learning with Large Batches and Asynchronous Updates [67.19481956584465]
飽和を伴う分散トレーニング(SGD)の効率は、バッチサイズと、実装における停滞に決定的に依存することが実験的に観察されている。結果がタイトであることを示し、数値実験で重要な結果を示しています。
論文参考訳（メタデータ） (2021-03-03T12:08:23Z)
Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文参考訳（メタデータ） (2020-09-19T17:28:11Z)
Balancing Rates and Variance via Adaptive Batch-Size for Stochastic Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文参考訳（メタデータ） (2020-07-02T16:02:02Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。