論文の概要: AdaScale SGD: A User-Friendly Algorithm for Distributed Training
- arxiv url: http://arxiv.org/abs/2007.05105v1
- Date: Thu, 9 Jul 2020 23:26:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 03:39:13.222350
- Title: AdaScale SGD: A User-Friendly Algorithm for Distributed Training
- Title(参考訳): AdaScale SGD: 分散トレーニングのためのユーザフレンドリーなアルゴリズム
- Authors: Tyler B. Johnson, Pulkit Agrawal, Haijie Gu, Carlos Guestrin
- Abstract要約: 本研究では,大規模バッチ学習に学習率を確実に適応させるアルゴリズムであるAdaScale SGDを提案する。
勾配の分散に継続的に適応することにより、AdaScaleは幅広いバッチサイズでスピードアップを達成する。
これには、機械翻訳、画像分類、オブジェクト検出、音声認識タスクのためのモデル劣化のない大規模なバッチトレーニングが含まれる。
- 参考スコア(独自算出の注目度): 29.430153773234363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When using large-batch training to speed up stochastic gradient descent,
learning rates must adapt to new batch sizes in order to maximize speed-ups and
preserve model quality. Re-tuning learning rates is resource intensive, while
fixed scaling rules often degrade model quality. We propose AdaScale SGD, an
algorithm that reliably adapts learning rates to large-batch training. By
continually adapting to the gradient's variance, AdaScale automatically
achieves speed-ups for a wide range of batch sizes. We formally describe this
quality with AdaScale's convergence bound, which maintains final objective
values, even as batch sizes grow large and the number of iterations decreases.
In empirical comparisons, AdaScale trains well beyond the batch size limits of
popular "linear learning rate scaling" rules. This includes large-batch
training with no model degradation for machine translation, image
classification, object detection, and speech recognition tasks. AdaScale's
qualitative behavior is similar to that of "warm-up" heuristics, but unlike
warm-up, this behavior emerges naturally from a principled mechanism. The
algorithm introduces negligible computational overhead and no new
hyperparameters, making AdaScale an attractive choice for large-scale training
in practice.
- Abstract(参考訳): 大規模バッチトレーニングを使用して確率的勾配降下をスピードアップする場合、学習速度は、スピードアップを最大化し、モデル品質を維持するために、新しいバッチサイズに適応する必要がある。
再チューニングの学習レートはリソース集約であり、固定されたスケーリングルールはモデル品質を劣化させることが多い。
本研究では,大規模バッチ学習に学習率を確実に適応させるアルゴリズムであるAdaScale SGDを提案する。
勾配の分散に継続的に適応することで、adascaleは広範囲のバッチサイズで自動的にスピードアップを実現する。
バッチサイズが大きくなり、イテレーション数が減少しても最終目的値を維持するadascaleの収束境界でこの品質を正式に記述する。
経験的比較において、adascaleは一般的な"線形学習率スケーリング"ルールのバッチサイズ制限をはるかに超えている。
これには、機械翻訳、画像分類、オブジェクト検出、音声認識タスクのためのモデル劣化のない大規模なバッチトレーニングが含まれる。
アダスケールの質的行動は「ウォームアップ」のヒューリスティックと似ているが、ウォームアップとは異なり、この行動は原理的なメカニズムから自然に現れる。
このアルゴリズムは無視できる計算オーバーヘッドを導入し、新しいハイパーパラメーターは導入しないため、AdaScaleは実際に大規模なトレーニングを行う上で魅力的な選択肢となる。
関連論文リスト
- AdAdaGrad: Adaptive Batch Size Schemes for Adaptive Gradient Methods [17.043034606088234]
本稿では,AdAdaGradのスカラー変種AdAdaGradNormについて紹介する。
また,画像分類実験を行い,提案手法のメリットを強調した。
論文 参考訳(メタデータ) (2024-02-17T07:49:50Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Q-Ensemble for Offline RL: Don't Scale the Ensemble, Scale the Batch
Size [58.762959061522736]
学習速度を適切に調整したミニバッチサイズをスケールすることで、トレーニングプロセスを桁違いに高速化できることを示す。
そこで本研究では,(1)Qアンサンブルの縮小,(2)分配行動の厳格化,(3)収束時間の改善など,ミニバッチサイズを拡大し,学習率を経時的に調整できることを示す。
論文 参考訳(メタデータ) (2022-11-20T21:48:25Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Step-size Adaptation Using Exponentiated Gradient Updates [21.162404996362948]
ステップサイズの適応的なチューニング手法で与えられた拡張が性能を大幅に向上させることを示す。
私たちは、アップデートのグローバルなステップサイズスケールと、各座標のゲインファクタを維持しています。
提案手法は, 特別に調整された学習率スケジュールを使わずに, 標準モデルの精度を高めることができることを示す。
論文 参考訳(メタデータ) (2022-01-31T23:17:08Z) - Automated Learning Rate Scheduler for Large-batch Training [24.20872850681828]
大規模バッチトレーニングは、ディープラーニングにおける大規模データセットとモデルを活用する上で不可欠である。
小規模なバッチトレーニングと同等のパフォーマンスを達成するために、特別に設計された学習率(LR)スケジュールを必要とすることが多い。
本稿では,ニューラルネットワークのトレーニングに有効なLR自動スケジューリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-13T05:23:13Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Improving the convergence of SGD through adaptive batch sizes [0.1813006808606333]
ミニバッチ勾配勾配(SGD)とその変種は、少数のトレーニング例で目的関数の勾配を近似する。
この研究は、バッチサイズをモデルのトレーニング損失に適応させる方法を示す。
論文 参考訳(メタデータ) (2019-10-18T01:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。