論文の概要: Large Batch Training Does Not Need Warmup
- arxiv url: http://arxiv.org/abs/2002.01576v1
- Date: Tue, 4 Feb 2020 23:03:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 02:42:10.245229
- Title: Large Batch Training Does Not Need Warmup
- Title(参考訳): 大きなバッチトレーニングはウォームアップを必要としない
- Authors: Zhouyuan Huo, Bin Gu, Heng Huang
- Abstract要約: 大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。
本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。
分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
- 参考スコア(独自算出の注目度): 111.07680619360528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training deep neural networks using a large batch size has shown promising
results and benefits many real-world applications. However, the optimizer
converges slowly at early epochs and there is a gap between large-batch deep
learning optimization heuristics and theoretical underpinnings. In this paper,
we propose a novel Complete Layer-wise Adaptive Rate Scaling (CLARS) algorithm
for large-batch training. We also analyze the convergence rate of the proposed
method by introducing a new fine-grained analysis of gradient-based methods.
Based on our analysis, we bridge the gap and illustrate the theoretical
insights for three popular large-batch training techniques, including linear
learning rate scaling, gradual warmup, and layer-wise adaptive rate scaling.
Extensive experiments demonstrate that the proposed algorithm outperforms
gradual warmup technique by a large margin and defeats the convergence of the
state-of-the-art large-batch optimizer in training advanced deep neural
networks (ResNet, DenseNet, MobileNet) on ImageNet dataset.
- Abstract(参考訳): 大規模なバッチサイズによるディープニューラルネットワークのトレーニングでは、有望な結果が得られ、現実世界のアプリケーションの多くにメリットがある。
しかし、オプティマイザは早期にゆっくりと収束し、大規模なディープラーニング最適化ヒューリスティックと理論的基礎の間にはギャップがある。
本稿では,大規模バッチトレーニングのための新しい階層型適応レートスケーリング(clars)アルゴリズムを提案する。
また,勾配法の新しい微粒化解析を導入することにより,提案手法の収束率も解析する。
我々は,このギャップを埋め,線形学習率のスケーリング,漸進的ウォームアップ,層幅適応率のスケーリングなど,3つの一般的な大規模バッチトレーニング手法の理論的洞察を示す。
大規模な実験により,提案アルゴリズムは,ImageNetデータセット上での高度なディープニューラルネットワーク(ResNet,DenseNet,MobileNet)のトレーニングにおいて,最先端の大規模バッチオプティマイザの収束を克服し,漸進的なウォームアップ手法よりも優れていた。
関連論文リスト
- Simmering: Sufficient is better than optimal for training neural networks [0.0]
これは、ニューラルネットワークをトレーニングして、十分十分な重みとバイアスを生成する物理ベースの方法です。
我々は、SimmeringがAdamが過剰に適合するニューラルネットワークを修正していることを示し、Simmeringが最初からデプロイされた場合、過適合を避けることを示す。
本稿では,ニューラルネットワーク学習のパラダイムとして最適化を問うとともに,情報幾何学的議論を活用し,十分な学習アルゴリズムのクラスの存在を示唆する。
論文 参考訳(メタデータ) (2024-10-25T18:02:08Z) - Learning Rate Optimization for Deep Neural Networks Using Lipschitz Bandits [9.361762652324968]
適切に調整された学習率によって、より高速なトレーニングとテストの精度が向上する。
本稿では,ニューラルネットワークの学習速度を調整するためのLipschitz bandit-drivenアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-15T16:21:55Z) - Approximated Likelihood Ratio: A Forward-Only and Parallel Framework for Boosting Neural Network Training [30.452060061499523]
本稿では、勾配推定における計算およびメモリ要求を軽減するために、LR法を近似する手法を提案する。
ニューラルネットワークトレーニングにおける近似手法の有効性を実験により実証した。
論文 参考訳(メタデータ) (2024-03-18T23:23:50Z) - The Cascaded Forward Algorithm for Neural Network Training [61.06444586991505]
本稿では,ニューラルネットワークのための新しい学習フレームワークであるCascaded Forward(CaFo)アルゴリズムを提案する。
FFとは異なり、我々のフレームワークは各カスケードブロックのラベル分布を直接出力する。
我々のフレームワークでは、各ブロックは独立して訓練できるので、並列加速度システムに容易に展開できる。
論文 参考訳(メタデータ) (2023-03-17T02:01:11Z) - Hyper-Learning for Gradient-Based Batch Size Adaptation [2.944323057176686]
バッチサイズをスケジューリングして拡大することは、ディープニューラルネットワークをトレーニングする際のノイズを制御する効果的な戦略である。
学習可能なスケジューリングのためのバッチサイズ適応を行うためのアルゴリズムとしてArbiterを導入する。
いくつかの実験でArbiterの有効性を実証した。
論文 参考訳(メタデータ) (2022-05-17T11:01:14Z) - Analytically Tractable Inference in Deep Neural Networks [0.0]
Tractable Approximate Inference (TAGI)アルゴリズムは、浅いフルコネクテッドニューラルネットワークのバックプロパゲーションに対する実行可能でスケーラブルな代替手段であることが示された。
従来のディープニューラルネットワークアーキテクチャをトレーニングするために、TAGIがバックプロパゲーションのパフォーマンスとどのように一致するか、または上回るかを実証しています。
論文 参考訳(メタデータ) (2021-03-09T14:51:34Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。