論文の概要: Stochastic Normalized Gradient Descent with Momentum for Large Batch
Training
- arxiv url: http://arxiv.org/abs/2007.13985v1
- Date: Tue, 28 Jul 2020 04:34:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 01:34:45.718906
- Title: Stochastic Normalized Gradient Descent with Momentum for Large Batch
Training
- Title(参考訳): 大規模バッチトレーニングのためのモーメント付き確率正規化グラディエントDescence
- Authors: Shen-Yi Zhao, Yin-Peng Xie, Wu-Jun Li
- Abstract要約: 勾配降下(SGD)とその変種は、機械学習計算における支配的最適化手法である。
本研究では,大バッチ学習における運動量付き正規化勾配降下法(SNGM)を提案する。
SNGMは,バッチサイズが大きく,最先端の精度を達成可能であることを示す。
- 参考スコア(独自算出の注目度): 22.716460997189554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic gradient descent (SGD) and its variants have been the dominating
optimization methods in machine learning. Compared with small batch training,
SGD with large batch training can better utilize the computational power of
current multi-core systems like GPUs and can reduce the number of communication
rounds in distributed training. Hence, SGD with large batch training has
attracted more and more attention. However, existing empirical results show
that large batch training typically leads to a drop of generalization accuracy.
As a result, large batch training has also become a challenging topic. In this
paper, we propose a novel method, called stochastic normalized gradient descent
with momentum (SNGM), for large batch training. We theoretically prove that
compared to momentum SGD (MSGD) which is one of the most widely used variants
of SGD, SNGM can adopt a larger batch size to converge to the
$\epsilon$-stationary point with the same computation complexity (total number
of gradient computation). Empirical results on deep learning also show that
SNGM can achieve the state-of-the-art accuracy with a large batch size.
- Abstract(参考訳): 確率勾配勾配(SGD)とその変種は機械学習における支配的最適化手法である。
大規模なバッチトレーニングを伴うSGDは、小さなバッチトレーニングと比較して、GPUのような現在のマルチコアシステムの計算能力をより有効に活用でき、分散トレーニングにおける通信ラウンドの数を削減できる。
そのため、大規模なバッチトレーニングを持つSGDはますます注目を集めている。
しかし、既存の実験結果から、大規模なバッチトレーニングは一般に一般化精度の低下につながることが示されている。
結果として、大規模なバッチトレーニングも難しいトピックになっている。
本稿では,大規模バッチ学習のための確率正規化勾配降下法(SNGM)を提案する。
我々は、SGDの最も広く使われている変種の一つである運動量SGD(MSGD)と比較して、SNGMがより大きいバッチサイズを採用して、同じ計算複雑性を持つ$\epsilon$-stationary点に収束できることを理論的に証明する。
深層学習に関する実証的な結果は、SNGMがバッチサイズを大きくして最先端の精度を達成できることを示している。
関連論文リスト
- Iteration and Stochastic First-order Oracle Complexities of Stochastic
Gradient Descent using Constant and Decaying Learning Rates [0.8158530638728501]
本研究では,学習速度だけでなく,バッチサイズにも依存していることを示す。
その結果, 評価された臨界バッチサイズは, 理論結果から推定したサイズに近いことがわかった。
論文 参考訳(メタデータ) (2024-02-23T14:24:45Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of
Language Model [92.55145016562867]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Compound Batch Normalization for Long-tailed Image Classification [77.42829178064807]
本稿では,ガウス混合に基づく複合バッチ正規化法を提案する。
機能空間をより包括的にモデル化し、ヘッドクラスの優位性を減らすことができる。
提案手法は,画像分類における既存の手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-02T07:31:39Z) - Quantized Training of Gradient Boosting Decision Trees [84.97123593657584]
我々は,GBDTのトレーニングアルゴリズムにおいて,高精度勾配を非常に単純かつ効果的な方法で定量化することを提案する。
低精度勾配では、GBDTトレーニングにおけるほとんどの算術演算は、8, 16, 32ビットの整数演算に置き換えられる。
大規模なデータセット上でのSOTA GBDTシステムと比較して、単純な量子化戦略の2$times$スピードアップを観測する。
論文 参考訳(メタデータ) (2022-07-20T06:27:06Z) - Concurrent Adversarial Learning for Large-Batch Training [83.55868483681748]
逆学習は、決定面を滑らかにし、平坦な領域に偏りを付けるための自然な選択である。
本稿では,安定パラメータを用いて,逐次勾配計算を分離するConcurrent Adversarial Learning(ConAdv)手法を提案する。
これは、ResNet-50トレーニングバッチサイズを96Kにスケールする最初の作業である。
論文 参考訳(メタデータ) (2021-06-01T04:26:02Z) - Contrastive Weight Regularization for Large Minibatch SGD [8.927483136015283]
我々は新しい正規化手法、すなわち特異正規化(DReg)を導入する。
DRegはディープネットワークの特定のレイヤを複製し、両方のレイヤのパラメータを多様にすることを奨励する。
我々は,大バッチSGDを用いたDRegによるニューラルネットワークの最適化が,収束の著しい向上と性能向上を実現することを実証的に示す。
論文 参考訳(メタデータ) (2020-11-17T22:07:38Z) - Double Forward Propagation for Memorized Batch Normalization [68.34268180871416]
バッチ正規化(BN)は、ディープニューラルネットワーク(DNN)の設計における標準コンポーネントである。
より正確でロバストな統計値を得るために,複数の最近のバッチを考慮に入れた記憶型バッチ正規化(MBN)を提案する。
関連する手法と比較して、提案したMBNはトレーニングと推論の両方において一貫した振る舞いを示す。
論文 参考訳(メタデータ) (2020-10-10T08:48:41Z) - AdaScale SGD: A User-Friendly Algorithm for Distributed Training [29.430153773234363]
本研究では,大規模バッチ学習に学習率を確実に適応させるアルゴリズムであるAdaScale SGDを提案する。
勾配の分散に継続的に適応することにより、AdaScaleは幅広いバッチサイズでスピードアップを達成する。
これには、機械翻訳、画像分類、オブジェクト検出、音声認識タスクのためのモデル劣化のない大規模なバッチトレーニングが含まれる。
論文 参考訳(メタデータ) (2020-07-09T23:26:13Z) - On the Generalization Benefit of Noise in Stochastic Gradient Descent [34.127525925676416]
ディープニューラルネットワークにおけるバッチ勾配勾配よりも、ミニバッチ勾配勾配がより一般化できるという主張は、長年にわたって議論されてきた。
小さいバッチサイズや中程度のバッチサイズは、テストセットにおいて非常に大きなバッチよりも大幅に優れています。
論文 参考訳(メタデータ) (2020-06-26T16:18:54Z) - How do SGD hyperparameters in natural training affect adversarial
robustness? [5.406299794900294]
学習速度、バッチサイズ、運動量は、SGDアルゴリズムにおいて3つの重要なハイパーパラメータである。
本稿では,SGDハイパーパラメータが未飽和試料を用いてトレーニングしたネットワークの精度と対角的ロバスト性に及ぼす影響を実証的に観察する。
論文 参考訳(メタデータ) (2020-06-20T16:04:44Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。