論文の概要: Accelerating Large Batch Training via Gradient Signal to Noise Ratio
(GSNR)
- arxiv url: http://arxiv.org/abs/2309.13681v1
- Date: Sun, 24 Sep 2023 16:08:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 18:12:24.655295
- Title: Accelerating Large Batch Training via Gradient Signal to Noise Ratio
(GSNR)
- Title(参考訳): グラディエント信号と雑音比(GSNR)による大規模バッチ訓練の高速化
- Authors: Guo-qing Jiang, Jinlong Liu, Zixiang Ding, Lin Guo, Wei Lin
- Abstract要約: 我々は、勾配信号対雑音比(GSNR)に基づく分散低減勾配降下法(VRGD)を開発した。
VRGDはトレーニングを加速し($1sim 2 times$)、一般化のギャップを狭め、最終的な精度を向上させる。
ImageNet Top-1 の精度は LARS よりも 96k で0.52pp$ 向上した。
- 参考スコア(独自算出の注目度): 16.351871316985598
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As models for nature language processing (NLP), computer vision (CV) and
recommendation systems (RS) require surging computation, a large number of
GPUs/TPUs are paralleled as a large batch (LB) to improve training throughput.
However, training such LB tasks often meets large generalization gap and
downgrades final precision, which limits enlarging the batch size. In this
work, we develop the variance reduced gradient descent technique (VRGD) based
on the gradient signal to noise ratio (GSNR) and apply it onto popular
optimizers such as SGD/Adam/LARS/LAMB. We carry out a theoretical analysis of
convergence rate to explain its fast training dynamics, and a generalization
analysis to demonstrate its smaller generalization gap on LB training.
Comprehensive experiments demonstrate that VRGD can accelerate training ($1\sim
2 \times$), narrow generalization gap and improve final accuracy. We push the
batch size limit of BERT pretraining up to 128k/64k and DLRM to 512k without
noticeable accuracy loss. We improve ImageNet Top-1 accuracy at 96k by $0.52pp$
than LARS. The generalization gap of BERT and ImageNet training is
significantly reduce by over $65\%$.
- Abstract(参考訳): 自然言語処理(nlp)、コンピュータビジョン(cv)、レコメンデーションシステム(rs)のモデルでは、大量のgpu/tpusが大きなバッチ(lb)として並列化され、トレーニングスループットが向上している。
しかしながら、そのようなlbタスクのトレーニングは、しばしば大きな一般化ギャップを満たし、最終精度を低下させる。
本研究では,SGD/Adam/LARS/LAMBなどの一般的な最適化器に適用し,勾配信号と雑音比(GSNR)に基づく分散低減勾配降下法(VRGD)を開発した。
我々は,その高速トレーニング力学を説明するために収束速度の理論解析を行い,LBトレーニングにおける一般化ギャップを小さくする一般化解析を行った。
包括的な実験により、vrgdはトレーニングを加速できる($1\sim 2 \times$)。
我々は,BERTのバッチサイズ制限を128k/64k,DLRMを512kまで引き上げる。
ImageNet Top-1 の精度は LARS よりも 0.52pp$ 向上した。
BERT と ImageNet のトレーニングの一般化のギャップは 65 % 以上削減されている。
関連論文リスト
- Towards Accurate and Efficient Sub-8-Bit Integer Training [24.853958178296587]
量子化は、ニューラルネットワークトレーニングにおける低ビット幅フォーマットを可能にする。
最近の手法では、量子化器上での新しいデータフォーマットと追加の事前処理操作が開発されている。
高い精度と効率を同時に達成することは、依然として非常に難しい。
論文 参考訳(メタデータ) (2024-11-17T03:32:36Z) - Taming 3DGS: High-Quality Radiance Fields with Limited Resources [50.92437599516609]
3D Gaussian Splatting (3DGS)は、高速で解釈可能で高忠実なレンダリングで新規ビュー合成を変換した。
予算で3DGSモデルをトレーニングし、レンダリングするという課題に取り組みます。
我々は、勾配計算と属性更新のための高速で数値的に等価な解を導出する。
論文 参考訳(メタデータ) (2024-06-21T20:44:23Z) - Breaking MLPerf Training: A Case Study on Optimizing BERT [9.486916730173661]
本稿では,BERTモデルの高速大規模学習のための新しいアプローチを提案する。
分散BERTトレーニングは、様々な長さのサンプルによって特徴付けられるため、ロードバランシングが不可欠である。
本稿では,1)負荷分散のためのデータセット階層化に基づく局所的事前ソートと,(2)帰納前のバケットワイド勾配クリッピングという2つの新しいアイデアを提案する。
論文 参考訳(メタデータ) (2024-02-04T11:12:17Z) - ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models [59.90959789767886]
整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。
CIFAR10 と ImageNet 64$times$64 と LSUN Cat 256$times$256 データセットの FID スコアを改善する。
論文 参考訳(メタデータ) (2023-11-23T16:49:06Z) - Boosting Distributed Full-graph GNN Training with Asynchronous One-bit
Communication [23.883543151975136]
大規模なグラフ上でグラフニューラルネットワーク(GNN)をトレーニングすることは、高いメモリ要求と限られたGPUメモリとの競合のため、難しい。
本稿では,GNNにおける1ビット量子化計算手法を用いた分散GNN学習フレームワークSylvieを提案する。
詳細は、Sylvie氏は、送信したデータを定量化し、受信したデータを各レイヤの完全な精度の値に戻すための軽量な低ビットモジュールを提供する。
論文 参考訳(メタデータ) (2023-03-02T14:02:39Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - Accelerated Large Batch Optimization of BERT Pretraining in 54 minutes [9.213729275749452]
そこで本研究では,大規模ミニバッチの学習効率を向上させるため,LANSと呼ばれる高速化勾配法を提案する。
192のAWS EC2 P3dn.24xlargeインスタンスで54分かかり、SQuAD v1.1で目標F1スコアが90.5以上に達する。
論文 参考訳(メタデータ) (2020-06-24T05:00:41Z) - The Limit of the Batch Size [79.8857712299211]
大規模バッチトレーニングは、現在の分散ディープラーニングシステムにとって効率的なアプローチである。
本稿では,バッチサイズの限界について検討する。
ステップ・バイ・ステップ比較のための詳細な数値最適化手法を提案する。
論文 参考訳(メタデータ) (2020-06-15T16:18:05Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Large Batch Training Does Not Need Warmup [111.07680619360528]
大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。
本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。
分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
論文 参考訳(メタデータ) (2020-02-04T23:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。