論文の概要: The Limit of the Batch Size
- arxiv url: http://arxiv.org/abs/2006.08517v1
- Date: Mon, 15 Jun 2020 16:18:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 02:30:32.210596
- Title: The Limit of the Batch Size
- Title(参考訳): バッチサイズ制限
- Authors: Yang You and Yuhui Wang and Huan Zhang and Zhao Zhang and James Demmel
and Cho-Jui Hsieh
- Abstract要約: 大規模バッチトレーニングは、現在の分散ディープラーニングシステムにとって効率的なアプローチである。
本稿では,バッチサイズの限界について検討する。
ステップ・バイ・ステップ比較のための詳細な数値最適化手法を提案する。
- 参考スコア(独自算出の注目度): 79.8857712299211
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-batch training is an efficient approach for current distributed deep
learning systems. It has enabled researchers to reduce the ImageNet/ResNet-50
training from 29 hours to around 1 minute. In this paper, we focus on studying
the limit of the batch size. We think it may provide a guidance to AI
supercomputer and algorithm designers. We provide detailed numerical
optimization instructions for step-by-step comparison. Moreover, it is
important to understand the generalization and optimization performance of huge
batch training. Hoffer et al. introduced "ultra-slow diffusion" theory to
large-batch training. However, our experiments show contradictory results with
the conclusion of Hoffer et al. We provide comprehensive experimental results
and detailed analysis to study the limitations of batch size scaling and
"ultra-slow diffusion" theory. For the first time we scale the batch size on
ImageNet to at least a magnitude larger than all previous work, and provide
detailed studies on the performance of many state-of-the-art optimization
schemes under this setting. We propose an optimization recipe that is able to
improve the top-1 test accuracy by 18% compared to the baseline.
- Abstract(参考訳): 大規模トレーニングは、現在の分散ディープラーニングシステムにとって効率的なアプローチである。
研究者はimagenet/resnet-50のトレーニングを29時間から約1分に短縮できる。
本稿では,バッチサイズの限界について検討する。
AIスーパーコンピュータとアルゴリズムデザイナへのガイダンスを提供するかもしれない。
ステップバイステップ比較のための詳細な数値最適化手順を提案する。
さらに,大規模バッチトレーニングの一般化と最適化性能も理解することが重要である。
hofferらは大規模な訓練に"ultra-slow diffusion"理論を導入した。
しかし,本実験はhofferらによる結論と矛盾する結果を示した。
バッチサイズスケーリングと"ultra-slow diffusion"理論の限界を検討するため,包括的な実験結果と詳細な解析を行った。
ImageNetのバッチサイズを以前のすべての作業よりも少なくとも1桁大きく拡張し、この設定下での多くの最先端の最適化スキームの性能に関する詳細な研究を行った。
そこで本研究では,トップ1テストの精度をベースラインと比較して18%向上させる最適化手法を提案する。
関連論文リスト
- Surge Phenomenon in Optimal Learning Rate and Batch Size Scaling [27.058009599819012]
本稿では,Adamスタイルにおける最適学習率とバッチサイズとの関係について検討する。
最適学習率が最初に上昇し、バッチサイズが大きくなるにつれて低下することを示す。
論文 参考訳(メタデータ) (2024-05-23T13:52:36Z) - Accelerating Large Batch Training via Gradient Signal to Noise Ratio
(GSNR) [16.351871316985598]
我々は、勾配信号対雑音比(GSNR)に基づく分散低減勾配降下法(VRGD)を開発した。
VRGDはトレーニングを加速し($1sim 2 times$)、一般化のギャップを狭め、最終的な精度を向上させる。
ImageNet Top-1 の精度は LARS よりも 96k で0.52pp$ 向上した。
論文 参考訳(メタデータ) (2023-09-24T16:08:21Z) - Q-Ensemble for Offline RL: Don't Scale the Ensemble, Scale the Batch
Size [58.762959061522736]
学習速度を適切に調整したミニバッチサイズをスケールすることで、トレーニングプロセスを桁違いに高速化できることを示す。
そこで本研究では,(1)Qアンサンブルの縮小,(2)分配行動の厳格化,(3)収束時間の改善など,ミニバッチサイズを拡大し,学習率を経時的に調整できることを示す。
論文 参考訳(メタデータ) (2022-11-20T21:48:25Z) - Concurrent Adversarial Learning for Large-Batch Training [83.55868483681748]
逆学習は、決定面を滑らかにし、平坦な領域に偏りを付けるための自然な選択である。
本稿では,安定パラメータを用いて,逐次勾配計算を分離するConcurrent Adversarial Learning(ConAdv)手法を提案する。
これは、ResNet-50トレーニングバッチサイズを96Kにスケールする最初の作業である。
論文 参考訳(メタデータ) (2021-06-01T04:26:02Z) - Critical Parameters for Scalable Distributed Learning with Large Batches
and Asynchronous Updates [67.19481956584465]
飽和を伴う分散トレーニング(SGD)の効率は、バッチサイズと、実装における停滞に決定的に依存することが実験的に観察されている。
結果がタイトであることを示し、数値実験で重要な結果を示しています。
論文 参考訳(メタデータ) (2021-03-03T12:08:23Z) - Accelerated Large Batch Optimization of BERT Pretraining in 54 minutes [9.213729275749452]
そこで本研究では,大規模ミニバッチの学習効率を向上させるため,LANSと呼ばれる高速化勾配法を提案する。
192のAWS EC2 P3dn.24xlargeインスタンスで54分かかり、SQuAD v1.1で目標F1スコアが90.5以上に達する。
論文 参考訳(メタデータ) (2020-06-24T05:00:41Z) - Adaptive Learning of the Optimal Batch Size of SGD [52.50880550357175]
本稿では,その繰り返しを通じて最適なバッチサイズを適応的に学習し,凸度と滑らかな関数を求める手法を提案する。
実験では、合成データと実データを用いて、ほぼ最適な振る舞いを示す。
我々は,本手法を分散実装に適したサンプリングを含む,文献上考慮されていないいくつかの新しいバッチ戦略に一般化する。
論文 参考訳(メタデータ) (2020-05-03T14:28:32Z) - Large Batch Training Does Not Need Warmup [111.07680619360528]
大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。
本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。
分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
論文 参考訳(メタデータ) (2020-02-04T23:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。