論文の概要: Scalable and Practical Natural Gradient for Large-Scale Deep Learning
- arxiv url: http://arxiv.org/abs/2002.06015v1
- Date: Thu, 13 Feb 2020 11:55:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 10:01:01.399083
- Title: Scalable and Practical Natural Gradient for Large-Scale Deep Learning
- Title(参考訳): 大規模ディープラーニングのためのスケーラブルで実用的な自然勾配
- Authors: Kazuki Osawa, Yohei Tsuji, Yuichiro Ueno, Akira Naruse, Chuan-Sheng
Foo, and Rio Yokota
- Abstract要約: SP-NGDは1次法に比べて計算オーバーヘッドが無視できるような大きなミニバッチサイズにスケールする。
また,SP-NGDの873ステップにおいて,超大小バッチサイズ131,072の74.9%,32,768の1024GPUを用いた5.5分でトップ1検証精度75.4%の収束性を示した。
- 参考スコア(独自算出の注目度): 19.220930193896404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale distributed training of deep neural networks results in models
with worse generalization performance as a result of the increase in the
effective mini-batch size. Previous approaches attempt to address this problem
by varying the learning rate and batch size over epochs and layers, or ad hoc
modifications of batch normalization. We propose Scalable and Practical Natural
Gradient Descent (SP-NGD), a principled approach for training models that
allows them to attain similar generalization performance to models trained with
first-order optimization methods, but with accelerated convergence.
Furthermore, SP-NGD scales to large mini-batch sizes with a negligible
computational overhead as compared to first-order methods. We evaluated SP-NGD
on a benchmark task where highly optimized first-order methods are available as
references: training a ResNet-50 model for image classification on ImageNet. We
demonstrate convergence to a top-1 validation accuracy of 75.4% in 5.5 minutes
using a mini-batch size of 32,768 with 1,024 GPUs, as well as an accuracy of
74.9% with an extremely large mini-batch size of 131,072 in 873 steps of
SP-NGD.
- Abstract(参考訳): ディープニューラルネットワークの大規模分散トレーニングは、効果的なミニバッチサイズの増加の結果、一般化性能が低下するモデルをもたらす。
以前のアプローチでは,エポックやレイヤの学習率やバッチサイズ,あるいはバッチ正規化のアドホックな修正などによって,この問題に対処しようと試みている。
第一次最適化法で訓練されたモデルと類似の一般化性能を達成することができるが、収束が促進されるような訓練モデルのための原理的手法である、スケーラブルで実用的な自然勾配降下法(sp-ngd)を提案する。
さらに、SP-NGDは1次法と比較して計算オーバーヘッドが無視できるような大きなミニバッチサイズにスケールする。
我々はSP-NGDを、画像ネット上の画像分類のためのResNet-50モデルのトレーニングとして、高度に最適化された一階法が参照可能なベンチマークタスクで評価した。
また,SP-NGDの873ステップにおいて,超大小バッチサイズ131,072の74.9%,32,768の1024GPUを用いた5.5分でトップ1検証精度75.4%の収束性を示した。
関連論文リスト
- Speeding Up Image Classifiers with Little Companions [5.9999780224657195]
ニューラルネットワークのスケールアップは、大規模な言語とビジョンモデルの成功の鍵となるレシピである。
まず、軽量の"リトル"モデルを用いて、すべてのサンプルの予測を行う。
Little-Bigはまた、Intern Image-G-512をスピードアップし、90%のImageNet-1Kトップ1の精度を達成した。
論文 参考訳(メタデータ) (2024-06-24T20:11:46Z) - AdAdaGrad: Adaptive Batch Size Schemes for Adaptive Gradient Methods [17.043034606088234]
本稿では,AdAdaGradのスカラー変種AdAdaGradNormについて紹介する。
また,画像分類実験を行い,提案手法のメリットを強調した。
論文 参考訳(メタデータ) (2024-02-17T07:49:50Z) - Pruning Large Language Models via Accuracy Predictor [0.0]
数十億のパラメータ(あるいはそれ以上)を含む大規模言語モデル(LLM)は、様々なNLPタスクにおいて印象的な機能を示している。
まず,一定の数のアーキテクチャと精度のペアのトレーニングセットを構築し,非ニューラルネットワークモデルを精度予測器として訓練する。
論文 参考訳(メタデータ) (2023-09-18T06:38:24Z) - Combined Scaling for Zero-shot Transfer Learning [146.0851484769142]
我々は,ImageNet ILSVRC-2012バリデーションセットにおいて,85.7%のトップ1の精度を達成できるBASICと組み合わせたスケーリング手法を提案する。
この精度はCLIPとALIGNの9.3%を超える。
我々のモデルは、ロバストネスベンチマークの大幅な改善も示しています。
論文 参考訳(メタデータ) (2021-11-19T05:25:46Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - Concurrent Adversarial Learning for Large-Batch Training [83.55868483681748]
逆学習は、決定面を滑らかにし、平坦な領域に偏りを付けるための自然な選択である。
本稿では,安定パラメータを用いて,逐次勾配計算を分離するConcurrent Adversarial Learning(ConAdv)手法を提案する。
これは、ResNet-50トレーニングバッチサイズを96Kにスケールする最初の作業である。
論文 参考訳(メタデータ) (2021-06-01T04:26:02Z) - AdaScale SGD: A User-Friendly Algorithm for Distributed Training [29.430153773234363]
本研究では,大規模バッチ学習に学習率を確実に適応させるアルゴリズムであるAdaScale SGDを提案する。
勾配の分散に継続的に適応することにより、AdaScaleは幅広いバッチサイズでスピードアップを達成する。
これには、機械翻訳、画像分類、オブジェクト検出、音声認識タスクのためのモデル劣化のない大規模なバッチトレーニングが含まれる。
論文 参考訳(メタデータ) (2020-07-09T23:26:13Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z) - Large Batch Training Does Not Need Warmup [111.07680619360528]
大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。
本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。
分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
論文 参考訳(メタデータ) (2020-02-04T23:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。