論文の概要: A Large Batch Optimizer Reality Check: Traditional, Generic Optimizers
Suffice Across Batch Sizes
- arxiv url: http://arxiv.org/abs/2102.06356v1
- Date: Fri, 12 Feb 2021 05:57:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-15 13:21:12.093225
- Title: A Large Batch Optimizer Reality Check: Traditional, Generic Optimizers
Suffice Across Batch Sizes
- Title(参考訳): 大きなバッチオプティマイザの現実チェック:従来の汎用オプティマイザはバッチサイズで十分
- Authors: Zachary Nado, Justin M. Gilmer, Christopher J. Shallue, Rohan Anil,
George E. Dahl
- Abstract要約: 大規模なバッチサイズを使用してニューラルネットワークを高速にトレーニングするためのLARSとLAMBが提案されている。
そこで,nesterov momentum や adam などの標準最適化アルゴリズムは,lars と lamb の結果と大きなバッチサイズで一致あるいは超過できることを示した。
今回の結果は,これらのバッチサイズにおける新たな,より強固な将来比較を確立し,ニューラルネットワークトレーニングにおけるベースライン比較の難しさを浮き彫りにした。
- 参考スコア(独自算出の注目度): 8.4769209327079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently the LARS and LAMB optimizers have been proposed for training neural
networks faster using large batch sizes. LARS and LAMB add layer-wise
normalization to the update rules of Heavy-ball momentum and Adam,
respectively, and have become popular in prominent benchmarks and deep learning
libraries. However, without fair comparisons to standard optimizers, it remains
an open question whether LARS and LAMB have any benefit over traditional,
generic algorithms. In this work we demonstrate that standard optimization
algorithms such as Nesterov momentum and Adam can match or exceed the results
of LARS and LAMB at large batch sizes. Our results establish new, stronger
baselines for future comparisons at these batch sizes and shed light on the
difficulties of comparing optimizers for neural network training more
generally.
- Abstract(参考訳): 最近、LARSとLAMBオプティマイザは、大規模なバッチサイズを使用してニューラルネットワークを高速にトレーニングするために提案されている。
LARSとLAMBはそれぞれヘビーボール運動量とアダムの更新規則にレイヤワイズ正規化を加え、著名なベンチマークやディープラーニングライブラリで人気を集めている。
しかし、標準オプティマイザと公正に比較することなく、LARSとLAMBが従来の汎用アルゴリズムよりも有益かどうかには疑問が残る。
本研究では,nesterov momentum や adam などの標準最適化アルゴリズムが,lars と lamb の結果と大きなバッチサイズで一致あるいは上回ることを実証する。
これらのバッチサイズにおける将来比較のための新しい強固なベースラインを構築し,ニューラルネットワークトレーニングにおけるオプティマイザ比較の難しさを浮き彫りにした。
関連論文リスト
- ScaLA: Accelerating Adaptation of Pre-Trained Transformer-Based Language
Models via Efficient Large-Batch Adversarial Noise [20.779167087445995]
事前訓練されたトランスフォーマーベースの言語モデルは、多くの自然言語理解タスクにおいて劇的に改善されている。
ScaLAは変圧器ネットワークの高速化のための,新規かつ効率的な手法である。
実験の結果、ScaLAはBERTベースのRoBERTa-large上でGLLAのベースライン上で2.7-UE-9.8$times$アダプティブ・スピードアップを達成した。
論文 参考訳(メタデータ) (2022-01-29T01:47:01Z) - Logit Attenuating Weight Normalization [5.856897366207895]
勾配に基づく一般化を用いて訓練されたディープネットワークは、分類とランキング問題を解決するのに一般的な選択肢である。
適切に調整された$ell$正規化やウェイト崩壊がなければ、そのようなネットワークは出力スコア(論理)とネットワークウェイトを大きくする傾向にある。
そこで我々は,任意の勾配に基づく一般化に積み重ねることができる測位ウェイト正規化法 (LAWN) を提案する。
論文 参考訳(メタデータ) (2021-08-12T16:44:24Z) - A Bop and Beyond: A Second Order Optimizer for Binarized Neural Networks [0.0]
Binary Neural Networks (BNNs) の最適化は、実数値の重みをバイナライズ表現で近似することに依存している。
本稿では,第2の生モーメント推定を用いて第1の生モーメントを正規化し,しきい値との比較を行うアダム法と並行する手法を提案する。
提案した2つのバージョン – バイアス付きバージョンとバイアス修正バージョン – をそれぞれ独自のアプリケーションで提示する。
論文 参考訳(メタデータ) (2021-04-11T22:20:09Z) - Comparing Normalization Methods for Limited Batch Size Segmentation
Neural Networks [0.0]
バッチ正規化は、トレーニング中に大きなバッチサイズを使用して最もうまく機能する。
限定バッチサイズニューラルネットワークトレーニング環境におけるインスタンス正規化の有効性を示す。
また,本実験で使用したインスタンス正規化実装は,正規化手法を使わずにネットワークと比較した場合,計算時間を効率よくすることを示した。
論文 参考訳(メタデータ) (2020-11-23T17:13:24Z) - Layer-adaptive sparsity for the Magnitude-based Pruning [88.37510230946478]
本稿では,LAMP(Layer-Adaptive magnitude-based pruning)スコアを用いたグローバルプルーニングの新たな重要点を提案する。
LAMPは、階層的な空間選択のための一般的なスキームを一貫して上回っている。
論文 参考訳(メタデータ) (2020-10-15T09:14:02Z) - Double Forward Propagation for Memorized Batch Normalization [68.34268180871416]
バッチ正規化(BN)は、ディープニューラルネットワーク(DNN)の設計における標準コンポーネントである。
より正確でロバストな統計値を得るために,複数の最近のバッチを考慮に入れた記憶型バッチ正規化(MBN)を提案する。
関連する手法と比較して、提案したMBNはトレーニングと推論の両方において一貫した振る舞いを示す。
論文 参考訳(メタデータ) (2020-10-10T08:48:41Z) - Pruning Convolutional Filters using Batch Bridgeout [14.677724755838556]
最先端のコンピュータビジョンモデルでは、トレーニングセットに適合するために必要なパラメータ数がはるかに多いため、能力が急速に向上している。
これにより最適化と一般化性能が向上する。
推論コストを削減するために、トレーニングされたニューラルネットワークの畳み込みフィルタを切断することで、推論中の実行時のメモリと計算要求を削減できる。
本稿では,ニューラルネットワークの性能低下を最小限に抑え,効率よく刈り取ることができるようにトレーニングするために,スパシティ誘導正規化スキームであるBatch Bridgeoutを提案する。
論文 参考訳(メタデータ) (2020-09-23T01:51:47Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z) - Near-linear Time Gaussian Process Optimization with Adaptive Batching
and Resparsification [119.41129787351092]
BBKBは非回帰GP最適化アルゴリズムで、ほぼ直線的に実行し、バッチで候補を選択する。
また,同じバウンダリを用いて,スパルスGP近似の更新コストを適応的に遅延させることで,ステップ毎の償却コストをほぼ一定に抑えることができることを示した。
論文 参考訳(メタデータ) (2020-02-23T17:43:29Z) - Distance-Based Regularisation of Deep Networks for Fine-Tuning [116.71288796019809]
我々は,仮説クラスを,初期訓練前の重みを中心にした小さな球面に制約するアルゴリズムを開発した。
実験的な評価は、我々のアルゴリズムがうまく機能していることを示し、理論的な結果を裏付けるものである。
論文 参考訳(メタデータ) (2020-02-19T16:00:47Z) - Large Batch Training Does Not Need Warmup [111.07680619360528]
大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。
本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。
分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
論文 参考訳(メタデータ) (2020-02-04T23:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。