Fugu-MT 論文翻訳(概要): Stochastic Normalized Gradient Descent with Momentum for Large Batch Training

論文の概要: Stochastic Normalized Gradient Descent with Momentum for Large Batch Training

arxiv url: http://arxiv.org/abs/2007.13985v1
Date: Tue, 28 Jul 2020 04:34:43 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-06 01:34:45.718906
Title: Stochastic Normalized Gradient Descent with Momentum for Large Batch Training
Title（参考訳）: 大規模バッチトレーニングのためのモーメント付き確率正規化グラディエントDescence
Authors: Shen-Yi Zhao, Yin-Peng Xie, Wu-Jun Li
Abstract要約: 勾配降下(SGD)とその変種は、機械学習計算における支配的最適化手法である。本研究では,大バッチ学習における運動量付き正規化勾配降下法(SNGM)を提案する。 SNGMは,バッチサイズが大きく,最先端の精度を達成可能であることを示す。
参考スコア（独自算出の注目度）: 22.716460997189554
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Stochastic gradient descent (SGD) and its variants have been the dominating optimization methods in machine learning. Compared with small batch training, SGD with large batch training can better utilize the computational power of current multi-core systems like GPUs and can reduce the number of communication rounds in distributed training. Hence, SGD with large batch training has attracted more and more attention. However, existing empirical results show that large batch training typically leads to a drop of generalization accuracy. As a result, large batch training has also become a challenging topic. In this paper, we propose a novel method, called stochastic normalized gradient descent with momentum (SNGM), for large batch training. We theoretically prove that compared to momentum SGD (MSGD) which is one of the most widely used variants of SGD, SNGM can adopt a larger batch size to converge to the $\epsilon$-stationary point with the same computation complexity (total number of gradient computation). Empirical results on deep learning also show that SNGM can achieve the state-of-the-art accuracy with a large batch size.
Abstract（参考訳）: 確率勾配勾配(SGD)とその変種は機械学習における支配的最適化手法である。大規模なバッチトレーニングを伴うSGDは、小さなバッチトレーニングと比較して、GPUのような現在のマルチコアシステムの計算能力をより有効に活用でき、分散トレーニングにおける通信ラウンドの数を削減できる。そのため、大規模なバッチトレーニングを持つSGDはますます注目を集めている。しかし、既存の実験結果から、大規模なバッチトレーニングは一般に一般化精度の低下につながることが示されている。結果として、大規模なバッチトレーニングも難しいトピックになっている。本稿では,大規模バッチ学習のための確率正規化勾配降下法(SNGM)を提案する。我々は、SGDの最も広く使われている変種の一つである運動量SGD(MSGD)と比較して、SNGMがより大きいバッチサイズを採用して、同じ計算複雑性を持つ$\epsilon$-stationary点に収束できることを理論的に証明する。深層学習に関する実証的な結果は、SNGMがバッチサイズを大きくして最先端の精度を達成できることを示している。

関連論文リスト

Small Batch Size Training for Language Models: When Vanilla SGD Works, and Why Gradient Accumulation Is Wasteful [71.96579951744897]
従来の知恵では、小さなバッチサイズは言語モデルを事前訓練し、微調整を不安定にし、モチベーションを増進させる。本研究では,バッチサイズからバッチサイズまで,小さなバッチサイズを再検討し,Adamハイパーパラメータを小さなバッチサイズにスケールするためのルールを提案する。
論文参考訳（メタデータ） (2025-07-09T17:57:36Z)
Increasing Batch Size Improves Convergence of Stochastic Gradient Descent with Momentum [0.6906005491572401]
運動量による勾配降下(SGDM)は理論と実践の両方でよく研究されている。学習速度と運動量重みが一定であるミニバッチSGDMに着目した。
論文参考訳（メタデータ） (2025-01-15T15:53:27Z)
Compound Batch Normalization for Long-tailed Image Classification [77.42829178064807]
本稿では,ガウス混合に基づく複合バッチ正規化法を提案する。機能空間をより包括的にモデル化し、ヘッドクラスの優位性を減らすことができる。提案手法は,画像分類における既存の手法よりも優れている。
論文参考訳（メタデータ） (2022-12-02T07:31:39Z)
Quantized Training of Gradient Boosting Decision Trees [84.97123593657584]
我々は,GBDTのトレーニングアルゴリズムにおいて,高精度勾配を非常に単純かつ効果的な方法で定量化することを提案する。低精度勾配では、GBDTトレーニングにおけるほとんどの算術演算は、8, 16, 32ビットの整数演算に置き換えられる。大規模なデータセット上でのSOTA GBDTシステムと比較して、単純な量子化戦略の2$times$スピードアップを観測する。
論文参考訳（メタデータ） (2022-07-20T06:27:06Z)
Stochastic Training is Not Necessary for Generalization [57.04880404584737]
勾配降下の暗黙的な正則化(SGD)は、ニューラルネットワークで観測される印象的な一般化の振る舞いに基礎的であると広く信じられている。本研究では,SGDと同等のCIFAR-10において,非確率的フルバッチトレーニングが強力な性能を発揮することを示す。
論文参考訳（メタデータ） (2021-09-29T00:50:00Z)
DecentLaM: Decentralized Momentum SGD for Large-batch Deep Training [30.574484395380043]
分散モーメントSGD(DmSGD)は並列モーメントSGDよりも通信効率が高く、すべてのコンピューティングノードでグローバル平均が発生します。 DeLacent大バッチモーメント性能モデルを提案します。
論文参考訳（メタデータ） (2021-04-24T16:21:01Z)
Contrastive Weight Regularization for Large Minibatch SGD [8.927483136015283]
我々は新しい正規化手法、すなわち特異正規化(DReg)を導入する。 DRegはディープネットワークの特定のレイヤを複製し、両方のレイヤのパラメータを多様にすることを奨励する。我々は,大バッチSGDを用いたDRegによるニューラルネットワークの最適化が,収束の著しい向上と性能向上を実現することを実証的に示す。
論文参考訳（メタデータ） (2020-11-17T22:07:38Z)
AdaScale SGD: A User-Friendly Algorithm for Distributed Training [29.430153773234363]
本研究では,大規模バッチ学習に学習率を確実に適応させるアルゴリズムであるAdaScale SGDを提案する。勾配の分散に継続的に適応することにより、AdaScaleは幅広いバッチサイズでスピードアップを達成する。これには、機械翻訳、画像分類、オブジェクト検出、音声認識タスクのためのモデル劣化のない大規模なバッチトレーニングが含まれる。
論文参考訳（メタデータ） (2020-07-09T23:26:13Z)
On the Generalization Benefit of Noise in Stochastic Gradient Descent [34.127525925676416]
ディープニューラルネットワークにおけるバッチ勾配勾配よりも、ミニバッチ勾配勾配がより一般化できるという主張は、長年にわたって議論されてきた。小さいバッチサイズや中程度のバッチサイズは、テストセットにおいて非常に大きなバッチよりも大幅に優れています。
論文参考訳（メタデータ） (2020-06-26T16:18:54Z)
How do SGD hyperparameters in natural training affect adversarial robustness? [5.406299794900294]
学習速度、バッチサイズ、運動量は、SGDアルゴリズムにおいて3つの重要なハイパーパラメータである。本稿では,SGDハイパーパラメータが未飽和試料を用いてトレーニングしたネットワークの精度と対角的ロバスト性に及ぼす影響を実証的に観察する。
論文参考訳（メタデータ） (2020-06-20T16:04:44Z)
AdamP: Slowing Down the Slowdown for Momentum Optimizers on Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文参考訳（メタデータ） (2020-06-15T08:35:15Z)
Learning Low-rank Deep Neural Networks via Singular Vector Orthogonality Regularization and Singular Value Sparsification [53.50708351813565]
各ステップにSVDを適用することなく、トレーニング中に低ランクDNNを明示的に達成する最初の方法であるSVDトレーニングを提案する。 SVDトレーニングがDNN層のランクを著しく低減し,同じ精度で計算負荷の低減を実現することを実証的に示す。
論文参考訳（メタデータ） (2020-04-20T02:40:43Z)
On the Generalization of Stochastic Gradient Descent with Momentum [84.54924994010703]
運動量に基づく勾配降下(SGD)の加速変種は、機械学習モデルを訓練する際に広く用いられる。まず,標準重球運動量(SGDM)を持つSGDの複数のエポックに対する安定性ギャップが非有界となる凸損失関数が存在することを示す。滑らかなリプシッツ損失関数に対しては、修正モーメントベースの更新規則、すなわち、幅広いステップサイズで初期運動量(SGDEM)を解析する。
論文参考訳（メタデータ） (2018-09-12T17:02:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。