論文の概要: Stochastic Normalized Gradient Descent with Momentum for Large-Batch Training
- arxiv url: http://arxiv.org/abs/2007.13985v2
- Date: Mon, 15 Apr 2024 03:27:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 03:27:13.558041
- Title: Stochastic Normalized Gradient Descent with Momentum for Large-Batch Training
- Title(参考訳): 大バッチトレーニングのためのモーメント付き確率正規化グラディエントドライズ
- Authors: Shen-Yi Zhao, Chang-Wei Shi, Yin-Peng Xie, Wu-Jun Li,
- Abstract要約: 勾配降下(SGD)とその変種は機械学習における支配的最適化手法である。
本稿では,大規模バッチ学習のための運動量付き正規化勾配降下法(SNGM)を提案する。
- 参考スコア(独自算出の注目度): 9.964630991617764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic gradient descent~(SGD) and its variants have been the dominating optimization methods in machine learning. Compared to SGD with small-batch training, SGD with large-batch training can better utilize the computational power of current multi-core systems such as graphics processing units~(GPUs) and can reduce the number of communication rounds in distributed training settings. Thus, SGD with large-batch training has attracted considerable attention. However, existing empirical results showed that large-batch training typically leads to a drop in generalization accuracy. Hence, how to guarantee the generalization ability in large-batch training becomes a challenging task. In this paper, we propose a simple yet effective method, called stochastic normalized gradient descent with momentum~(SNGM), for large-batch training. We prove that with the same number of gradient computations, SNGM can adopt a larger batch size than momentum SGD~(MSGD), which is one of the most widely used variants of SGD, to converge to an $\epsilon$-stationary point. Empirical results on deep learning verify that when adopting the same large batch size, SNGM can achieve better test accuracy than MSGD and other state-of-the-art large-batch training methods.
- Abstract(参考訳): 確率勾配降下~(SGD)とその変種は機械学習における支配的最適化手法である。
SGDと小バッチのトレーニングを比較すると、大バッチのトレーニングを持つSGDは、グラフィックス処理ユニット~(GPU)のような現在のマルチコアシステムの計算能力をより有効に活用でき、分散トレーニング設定における通信ラウンドの数を削減できる。
このように、大バッチトレーニングを施したSGDが注目されている。
しかし,既存の実験結果から,大バッチトレーニングが一般化精度の低下につながることが示唆された。
したがって,大規模バッチ学習における一般化能力の確保は課題となる。
本稿では, 運動量~(SNGM)を用いた確率正規化勾配降下法という, 単純で効果的な手法を提案する。
SNGMは、勾配計算の数が同じであれば、SGDの最も広く使われている変種の一つである運動量SGD~(MSGD)よりも大きなバッチサイズを適用でき、$\epsilon$-stationary 点に収束できることを示す。
深層学習における実験的な結果から,同規模のバッチサイズを採用する場合,SNGMはMSGDや他の最先端の大規模バッチトレーニング手法よりも高いテスト精度を達成可能であることが確認された。
関連論文リスト
- Compound Batch Normalization for Long-tailed Image Classification [77.42829178064807]
本稿では,ガウス混合に基づく複合バッチ正規化法を提案する。
機能空間をより包括的にモデル化し、ヘッドクラスの優位性を減らすことができる。
提案手法は,画像分類における既存の手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-02T07:31:39Z) - Quantized Training of Gradient Boosting Decision Trees [84.97123593657584]
我々は,GBDTのトレーニングアルゴリズムにおいて,高精度勾配を非常に単純かつ効果的な方法で定量化することを提案する。
低精度勾配では、GBDTトレーニングにおけるほとんどの算術演算は、8, 16, 32ビットの整数演算に置き換えられる。
大規模なデータセット上でのSOTA GBDTシステムと比較して、単純な量子化戦略の2$times$スピードアップを観測する。
論文 参考訳(メタデータ) (2022-07-20T06:27:06Z) - Stochastic Training is Not Necessary for Generalization [57.04880404584737]
勾配降下の暗黙的な正則化(SGD)は、ニューラルネットワークで観測される印象的な一般化の振る舞いに基礎的であると広く信じられている。
本研究では,SGDと同等のCIFAR-10において,非確率的フルバッチトレーニングが強力な性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-09-29T00:50:00Z) - DecentLaM: Decentralized Momentum SGD for Large-batch Deep Training [30.574484395380043]
分散モーメントSGD(DmSGD)は並列モーメントSGDよりも通信効率が高く、すべてのコンピューティングノードでグローバル平均が発生します。
DeLacent大バッチモーメント性能モデルを提案します。
論文 参考訳(メタデータ) (2021-04-24T16:21:01Z) - Contrastive Weight Regularization for Large Minibatch SGD [8.927483136015283]
我々は新しい正規化手法、すなわち特異正規化(DReg)を導入する。
DRegはディープネットワークの特定のレイヤを複製し、両方のレイヤのパラメータを多様にすることを奨励する。
我々は,大バッチSGDを用いたDRegによるニューラルネットワークの最適化が,収束の著しい向上と性能向上を実現することを実証的に示す。
論文 参考訳(メタデータ) (2020-11-17T22:07:38Z) - AdaScale SGD: A User-Friendly Algorithm for Distributed Training [29.430153773234363]
本研究では,大規模バッチ学習に学習率を確実に適応させるアルゴリズムであるAdaScale SGDを提案する。
勾配の分散に継続的に適応することにより、AdaScaleは幅広いバッチサイズでスピードアップを達成する。
これには、機械翻訳、画像分類、オブジェクト検出、音声認識タスクのためのモデル劣化のない大規模なバッチトレーニングが含まれる。
論文 参考訳(メタデータ) (2020-07-09T23:26:13Z) - On the Generalization Benefit of Noise in Stochastic Gradient Descent [34.127525925676416]
ディープニューラルネットワークにおけるバッチ勾配勾配よりも、ミニバッチ勾配勾配がより一般化できるという主張は、長年にわたって議論されてきた。
小さいバッチサイズや中程度のバッチサイズは、テストセットにおいて非常に大きなバッチよりも大幅に優れています。
論文 参考訳(メタデータ) (2020-06-26T16:18:54Z) - How do SGD hyperparameters in natural training affect adversarial
robustness? [5.406299794900294]
学習速度、バッチサイズ、運動量は、SGDアルゴリズムにおいて3つの重要なハイパーパラメータである。
本稿では,SGDハイパーパラメータが未飽和試料を用いてトレーニングしたネットワークの精度と対角的ロバスト性に及ぼす影響を実証的に観察する。
論文 参考訳(メタデータ) (2020-06-20T16:04:44Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z) - Learning Low-rank Deep Neural Networks via Singular Vector Orthogonality
Regularization and Singular Value Sparsification [53.50708351813565]
各ステップにSVDを適用することなく、トレーニング中に低ランクDNNを明示的に達成する最初の方法であるSVDトレーニングを提案する。
SVDトレーニングがDNN層のランクを著しく低減し,同じ精度で計算負荷の低減を実現することを実証的に示す。
論文 参考訳(メタデータ) (2020-04-20T02:40:43Z) - On the Generalization of Stochastic Gradient Descent with Momentum [84.54924994010703]
運動量に基づく勾配降下(SGD)の加速変種は、機械学習モデルを訓練する際に広く用いられる。
まず,標準重球運動量(SGDM)を持つSGDの複数のエポックに対する安定性ギャップが非有界となる凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対しては、修正モーメントベースの更新規則、すなわち、幅広いステップサイズで初期運動量(SGDEM)を解析する。
論文 参考訳(メタデータ) (2018-09-12T17:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。