Fugu-MT 論文翻訳(概要): A Large Batch Optimizer Reality Check: Traditional, Generic Optimizers Suffice Across Batch Sizes

論文の概要: A Large Batch Optimizer Reality Check: Traditional, Generic Optimizers Suffice Across Batch Sizes

arxiv url: http://arxiv.org/abs/2102.06356v1
Date: Fri, 12 Feb 2021 05:57:01 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-15 13:21:12.093225
Title: A Large Batch Optimizer Reality Check: Traditional, Generic Optimizers Suffice Across Batch Sizes
Title（参考訳）: 大きなバッチオプティマイザの現実チェック:従来の汎用オプティマイザはバッチサイズで十分
Authors: Zachary Nado, Justin M. Gilmer, Christopher J. Shallue, Rohan Anil, George E. Dahl
Abstract要約: 大規模なバッチサイズを使用してニューラルネットワークを高速にトレーニングするためのLARSとLAMBが提案されている。そこで,nesterov momentum や adam などの標準最適化アルゴリズムは,lars と lamb の結果と大きなバッチサイズで一致あるいは超過できることを示した。今回の結果は,これらのバッチサイズにおける新たな,より強固な将来比較を確立し,ニューラルネットワークトレーニングにおけるベースライン比較の難しさを浮き彫りにした。
参考スコア（独自算出の注目度）: 8.4769209327079
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently the LARS and LAMB optimizers have been proposed for training neural networks faster using large batch sizes. LARS and LAMB add layer-wise normalization to the update rules of Heavy-ball momentum and Adam, respectively, and have become popular in prominent benchmarks and deep learning libraries. However, without fair comparisons to standard optimizers, it remains an open question whether LARS and LAMB have any benefit over traditional, generic algorithms. In this work we demonstrate that standard optimization algorithms such as Nesterov momentum and Adam can match or exceed the results of LARS and LAMB at large batch sizes. Our results establish new, stronger baselines for future comparisons at these batch sizes and shed light on the difficulties of comparing optimizers for neural network training more generally.
Abstract（参考訳）: 最近、LARSとLAMBオプティマイザは、大規模なバッチサイズを使用してニューラルネットワークを高速にトレーニングするために提案されている。 LARSとLAMBはそれぞれヘビーボール運動量とアダムの更新規則にレイヤワイズ正規化を加え、著名なベンチマークやディープラーニングライブラリで人気を集めている。しかし、標準オプティマイザと公正に比較することなく、LARSとLAMBが従来の汎用アルゴリズムよりも有益かどうかには疑問が残る。本研究では,nesterov momentum や adam などの標準最適化アルゴリズムが,lars と lamb の結果と大きなバッチサイズで一致あるいは上回ることを実証する。これらのバッチサイズにおける将来比較のための新しい強固なベースラインを構築し,ニューラルネットワークトレーニングにおけるオプティマイザ比較の難しさを浮き彫りにした。

関連論文リスト

MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
深層ニューラルネットワークのための統合トレーニングフレームワークを提案する。我々は,事前条件付き勾配最適化を利用するMARSの3つの例を紹介する。その結果,MARSの実装はAdamより一貫して優れていた。
論文参考訳（メタデータ） (2024-11-15T18:57:39Z)
Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文参考訳（メタデータ） (2024-09-25T21:32:12Z)
Surge Phenomenon in Optimal Learning Rate and Batch Size Scaling [27.058009599819012]
本稿では,Adamスタイルにおける最適学習率とバッチサイズとの関係について検討する。最適学習率が最初に上昇し、バッチサイズが大きくなるにつれて低下することを示す。
論文参考訳（メタデータ） (2024-05-23T13:52:36Z)
Optimizing with Low Budgets: a Comparison on the Black-box Optimization Benchmarking Suite and OpenAI Gym [2.511157007295545]
Black-box Optimization (BO)アルゴリズムは機械学習(ML)で人気がある MLのためのBBOツールと、より古典的なCOCOの比較を行う。 BBOコミュニティのアルゴリズムの中には、MLタスクで驚くほどうまく機能するものもある。
論文参考訳（メタデータ） (2023-09-29T18:33:10Z)
ScaLA: Accelerating Adaptation of Pre-Trained Transformer-Based Language Models via Efficient Large-Batch Adversarial Noise [20.779167087445995]
事前訓練されたトランスフォーマーベースの言語モデルは、多くの自然言語理解タスクにおいて劇的に改善されている。 ScaLAは変圧器ネットワークの高速化のための,新規かつ効率的な手法である。実験の結果、ScaLAはBERTベースのRoBERTa-large上でGLLAのベースライン上で2.7-UE-9.8$times$アダプティブ・スピードアップを達成した。
論文参考訳（メタデータ） (2022-01-29T01:47:01Z)
Logit Attenuating Weight Normalization [5.856897366207895]
勾配に基づく一般化を用いて訓練されたディープネットワークは、分類とランキング問題を解決するのに一般的な選択肢である。適切に調整された$ell$正規化やウェイト崩壊がなければ、そのようなネットワークは出力スコア(論理)とネットワークウェイトを大きくする傾向にある。そこで我々は,任意の勾配に基づく一般化に積み重ねることができる測位ウェイト正規化法 (LAWN) を提案する。
論文参考訳（メタデータ） (2021-08-12T16:44:24Z)
Comparing Normalization Methods for Limited Batch Size Segmentation Neural Networks [0.0]
バッチ正規化は、トレーニング中に大きなバッチサイズを使用して最もうまく機能する。限定バッチサイズニューラルネットワークトレーニング環境におけるインスタンス正規化の有効性を示す。また,本実験で使用したインスタンス正規化実装は,正規化手法を使わずにネットワークと比較した場合,計算時間を効率よくすることを示した。
論文参考訳（メタデータ） (2020-11-23T17:13:24Z)
Layer-adaptive sparsity for the Magnitude-based Pruning [88.37510230946478]
本稿では,LAMP(Layer-Adaptive magnitude-based pruning)スコアを用いたグローバルプルーニングの新たな重要点を提案する。 LAMPは、階層的な空間選択のための一般的なスキームを一貫して上回っている。
論文参考訳（メタデータ） (2020-10-15T09:14:02Z)
Double Forward Propagation for Memorized Batch Normalization [68.34268180871416]
バッチ正規化(BN)は、ディープニューラルネットワーク(DNN)の設計における標準コンポーネントである。より正確でロバストな統計値を得るために,複数の最近のバッチを考慮に入れた記憶型バッチ正規化(MBN)を提案する。関連する手法と比較して、提案したMBNはトレーニングと推論の両方において一貫した振る舞いを示す。
論文参考訳（メタデータ） (2020-10-10T08:48:41Z)
AdamP: Slowing Down the Slowdown for Momentum Optimizers on Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文参考訳（メタデータ） (2020-06-15T08:35:15Z)
Distance-Based Regularisation of Deep Networks for Fine-Tuning [116.71288796019809]
我々は,仮説クラスを,初期訓練前の重みを中心にした小さな球面に制約するアルゴリズムを開発した。実験的な評価は、我々のアルゴリズムがうまく機能していることを示し、理論的な結果を裏付けるものである。
論文参考訳（メタデータ） (2020-02-19T16:00:47Z)
Large Batch Training Does Not Need Warmup [111.07680619360528]
大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
論文参考訳（メタデータ） (2020-02-04T23:03:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。