論文の概要: Increasing Batch Size Improves Convergence of Stochastic Gradient Descent with Momentum
- arxiv url: http://arxiv.org/abs/2501.08883v1
- Date: Wed, 15 Jan 2025 15:53:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:52:00.096844
- Title: Increasing Batch Size Improves Convergence of Stochastic Gradient Descent with Momentum
- Title(参考訳): バッチサイズの増加は、モーメントによる確率勾配の収束を改善する
- Authors: Keisuke Kamo, Hideaki Iiduka,
- Abstract要約: 運動量による勾配降下(SGDM)は理論と実践の両方でよく研究されている。
学習速度と運動量重みが一定であるミニバッチSGDMに着目した。
- 参考スコア(独自算出の注目度): 0.6906005491572401
- License:
- Abstract: Stochastic gradient descent with momentum (SGDM), which is defined by adding a momentum term to SGD, has been well studied in both theory and practice. Theoretically investigated results showed that the settings of the learning rate and momentum weight affect the convergence of SGDM. Meanwhile, practical results showed that the setting of batch size strongly depends on the performance of SGDM. In this paper, we focus on mini-batch SGDM with constant learning rate and constant momentum weight, which is frequently used to train deep neural networks in practice. The contribution of this paper is showing theoretically that using a constant batch size does not always minimize the expectation of the full gradient norm of the empirical loss in training a deep neural network, whereas using an increasing batch size definitely minimizes it, that is, increasing batch size improves convergence of mini-batch SGDM. We also provide numerical results supporting our analyses, indicating specifically that mini-batch SGDM with an increasing batch size converges to stationary points faster than with a constant batch size. Python implementations of the optimizers used in the numerical experiments are available at https://anonymous.4open.science/r/momentum-increasing-batch-size-888C/.
- Abstract(参考訳): モーメント項をSGDに追加することによって定義されるモーメント付き確率勾配降下(SGDM)は、理論と実践の両方においてよく研究されている。
理論的に検討した結果,学習速度と運動量重みの設定がSGDMの収束に影響を及ぼすことが明らかとなった。
一方, 実測結果から, バッチサイズの設定はSGDMの性能に大きく依存していることがわかった。
本稿では,学習速度と運動量重みが一定であるミニバッチSGDMに着目し,実際に深層ニューラルネットワークのトレーニングによく使用される。
本論文の貢献は, 一定のバッチサイズを用いることで, ディープニューラルネットワークのトレーニングにおける経験的損失の完全な勾配規範の期待を最小化できるだけでなく, バッチサイズを増大させることで, バッチサイズの増加は, ミニバッチSGDMの収束性を向上することを示すものである。
また, バッチサイズが増大するミニバッチSGDMは, 一定のバッチサイズよりも高速に定常点に収束することを示す。
数値実験で使用されるオプティマイザのPython実装はhttps://anonymous.4open.science/r/momentum-increasing-batch-size-888C/で公開されている。
関連論文リスト
- Faster Convergence of Riemannian Stochastic Gradient Descent with Increasing Batch Size [0.6906005491572401]
バッチサイズの増加は、一定のバッチサイズを使用するよりも、RSGDの高速化につながる。
主成分分析と低ランク行列問題の実験により, 成長バッチサイズや指数成長バッチサイズを用いることで, 一定のバッチサイズよりも優れた性能が得られることを確認した。
論文 参考訳(メタデータ) (2025-01-30T06:23:28Z) - When and Why Momentum Accelerates SGD:An Empirical Study [76.2666927020119]
本研究では,運動量を有する勾配降下(SGD)の性能について検討する。
運動量加速度は,更新方向に沿った方向ヘッセンの急激な跳躍を示す強調シャープニングと密接に関連していることがわかった。
モーメントは、急激な研削の発生を防止または延期することにより、SGDMの性能を向上させる。
論文 参考訳(メタデータ) (2023-06-15T09:54:21Z) - Critical Bach Size Minimizes Stochastic First-Order Oracle Complexity of
Deep Learning Optimizer using Hyperparameters Close to One [0.0]
学習速度が小さいこと,1に近いハイパーパラメータ,大きなバッチサイズが,損失関数を最小化するディープニューラルネットワークのモデルパラメータを見つけることができることを示す。
その結果,Adamは一定の学習率と1に近いハイパーパラメータを用いており,SFOの複雑性を最小化する臨界バッチサイズはモメンタムや勾配勾配よりも早く収束することがわかった。
論文 参考訳(メタデータ) (2022-08-21T06:11:23Z) - Low-Precision Stochastic Gradient Langevin Dynamics [70.69923368584588]
本稿では,低精度のグラジエントランゲヴィンダイナミクスを初めて研究し,性能を犠牲にすることなくコストを大幅に削減できることを示した。
本研究では,各更新ステップの分散を保存したSGLDの新しい量子化関数を開発する。
我々は,低精度のSGLDが,様々なディープラーニングタスクにおいて8ビットしか持たない完全精度のSGLDに匹敵する性能を実現することを実証した。
論文 参考訳(メタデータ) (2022-06-20T17:25:41Z) - Critical Parameters for Scalable Distributed Learning with Large Batches
and Asynchronous Updates [67.19481956584465]
飽和を伴う分散トレーニング(SGD)の効率は、バッチサイズと、実装における停滞に決定的に依存することが実験的に観察されている。
結果がタイトであることを示し、数値実験で重要な結果を示しています。
論文 参考訳(メタデータ) (2021-03-03T12:08:23Z) - On the Generalization of Stochastic Gradient Descent with Momentum [58.900860437254885]
まず,アルゴリズムの安定性が一般化保証の確立に失敗する凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対して、修正モーメントに基づく更新規則を解析し、一般化誤差の上界を認めることを示す。
強凸損失関数の特別な場合において、標準 SGDM の複数のエポックが SGDEM の特別な形式として一般化されるような運動量の範囲を見出す。
論文 参考訳(メタデータ) (2021-02-26T18:58:29Z) - Contrastive Weight Regularization for Large Minibatch SGD [8.927483136015283]
我々は新しい正規化手法、すなわち特異正規化(DReg)を導入する。
DRegはディープネットワークの特定のレイヤを複製し、両方のレイヤのパラメータを多様にすることを奨励する。
我々は,大バッチSGDを用いたDRegによるニューラルネットワークの最適化が,収束の著しい向上と性能向上を実現することを実証的に示す。
論文 参考訳(メタデータ) (2020-11-17T22:07:38Z) - Double Forward Propagation for Memorized Batch Normalization [68.34268180871416]
バッチ正規化(BN)は、ディープニューラルネットワーク(DNN)の設計における標準コンポーネントである。
より正確でロバストな統計値を得るために,複数の最近のバッチを考慮に入れた記憶型バッチ正規化(MBN)を提案する。
関連する手法と比較して、提案したMBNはトレーニングと推論の両方において一貫した振る舞いを示す。
論文 参考訳(メタデータ) (2020-10-10T08:48:41Z) - Stochastic Normalized Gradient Descent with Momentum for Large-Batch Training [9.964630991617764]
勾配降下(SGD)とその変種は機械学習における支配的最適化手法である。
本稿では,大規模バッチ学習のための運動量付き正規化勾配降下法(SNGM)を提案する。
論文 参考訳(メタデータ) (2020-07-28T04:34:43Z) - On the Generalization Benefit of Noise in Stochastic Gradient Descent [34.127525925676416]
ディープニューラルネットワークにおけるバッチ勾配勾配よりも、ミニバッチ勾配勾配がより一般化できるという主張は、長年にわたって議論されてきた。
小さいバッチサイズや中程度のバッチサイズは、テストセットにおいて非常に大きなバッチよりも大幅に優れています。
論文 参考訳(メタデータ) (2020-06-26T16:18:54Z) - On the Generalization of Stochastic Gradient Descent with Momentum [84.54924994010703]
運動量に基づく勾配降下(SGD)の加速変種は、機械学習モデルを訓練する際に広く用いられる。
まず,標準重球運動量(SGDM)を持つSGDの複数のエポックに対する安定性ギャップが非有界となる凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対しては、修正モーメントベースの更新規則、すなわち、幅広いステップサイズで初期運動量(SGDEM)を解析する。
論文 参考訳(メタデータ) (2018-09-12T17:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。