論文の概要: Study on the Large Batch Size Training of Neural Networks Based on the
Second Order Gradient
- arxiv url: http://arxiv.org/abs/2012.08795v1
- Date: Wed, 16 Dec 2020 08:43:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 03:10:34.147223
- Title: Study on the Large Batch Size Training of Neural Networks Based on the
Second Order Gradient
- Title(参考訳): 2次勾配に基づくニューラルネットワークの大規模バッチサイズトレーニングに関する研究
- Authors: Fengli Gao and Huicai Zhong
- Abstract要約: 深層ニューラルネットワーク(DNN)における大規模バッチサイズのトレーニングは、よく知られた「一般化ギャップ」を持ち、非常に一般化性能の低下を引き起こす。
本稿では,nnの勾配,パラメータ更新ステップ長,損失更新ステップ長といった基本構造特性の異なるバッチサイズにおける進化について,理論と実験を組み合わせて検討する。
- 参考スコア(独自算出の注目度): 1.3794617022004712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large batch size training in deep neural networks (DNNs) possesses a
well-known 'generalization gap' that remarkably induces generalization
performance degradation. However, it remains unclear how varying batch size
affects the structure of a NN. Here, we combine theory with experiments to
explore the evolution of the basic structural properties, including gradient,
parameter update step length, and loss update step length of NNs under varying
batch sizes. We provide new guidance to improve generalization, which is
further verified by two designed methods involving discarding small-loss
samples and scheduling batch size. A curvature-based learning rate (CBLR)
algorithm is proposed to better fit the curvature variation, a sensitive factor
affecting large batch size training, across layers in a NN. As an approximation
of CBLR, the median-curvature LR (MCLR) algorithm is found to gain comparable
performance to Layer-wise Adaptive Rate Scaling (LARS) algorithm. Our
theoretical results and algorithm offer geometry-based explanations to the
existing studies. Furthermore, we demonstrate that the layer wise LR
algorithms, for example LARS, can be regarded as special instances of CBLR.
Finally, we deduce a theoretical geometric picture of large batch size
training, and show that all the network parameters tend to center on their
related minima.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)における大規模なバッチサイズトレーニングは、よく知られた「一般化ギャップ」を持ち、一般化性能の低下を著しく引き起こす。
しかし、バッチサイズの違いがNNの構造に与える影響は、まだ不明である。
本稿では,nnの勾配,パラメータ更新ステップ長,損失更新ステップ長といった基本構造特性の異なるバッチサイズにおける進化について,理論と実験を組み合わせて検討する。
小型サンプルの廃棄とバッチサイズのスケジューリングを含む2つの設計手法により,汎用性を向上させるための新たなガイダンスを提供する。
NNの層間における大規模バッチサイズトレーニングに影響を及ぼす敏感な要因である曲率変動に適合させるために,曲率に基づく学習率(CBLR)アルゴリズムを提案する。
CBLRの近似として、中央曲率LR(MCLR)アルゴリズムは、Layer-wise Adaptive Rate Scaling (LARS)アルゴリズムに匹敵する性能を得る。
我々の理論結果とアルゴリズムは既存の研究に幾何学に基づく説明を提供する。
さらに,レイヤワイズLRアルゴリズム,例えばLARSがCBLRの特別な例であることを示す。
最後に,大規模バッチサイズトレーニングの理論的幾何学的図式を導出し,ネットワークパラメータが関連するミニマについて中心となる傾向を示す。
関連論文リスト
- Layer-wise Adaptive Step-Sizes for Stochastic First-Order Methods for
Deep Learning [8.173034693197351]
深層学習における一階最適化のための新しい階層ごとの適応的なステップサイズ手順を提案する。
提案手法は,ディープニューラルネットワーク(DNN)におけるヘシアン対角ブロックに含まれる層次曲率情報を用いて,各層に対する適応的なステップサイズ(LR)を算出する。
数値実験により、SGDの運動量とAdamWと、提案した層ごとのステップサイズを組み合わせることで、効率的なLRスケジュールを選択できることが示されている。
論文 参考訳(メタデータ) (2023-05-23T04:12:55Z) - The Cascaded Forward Algorithm for Neural Network Training [61.06444586991505]
本稿では,ニューラルネットワークのための新しい学習フレームワークであるCascaded Forward(CaFo)アルゴリズムを提案する。
FFとは異なり、我々のフレームワークは各カスケードブロックのラベル分布を直接出力する。
我々のフレームワークでは、各ブロックは独立して訓練できるので、並列加速度システムに容易に展開できる。
論文 参考訳(メタデータ) (2023-03-17T02:01:11Z) - Reparameterization through Spatial Gradient Scaling [69.27487006953852]
リパラメータ化は、学習中に畳み込み層を等価なマルチブランチ構造に変換することによって、ディープニューラルネットワークの一般化を改善することを目的としている。
本稿では,畳み込みネットワークにおける重み間の学習焦点を再分配する空間勾配スケーリング手法を提案する。
論文 参考訳(メタデータ) (2023-03-05T17:57:33Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Wide Bayesian neural networks have a simple weight posterior: theory and
accelerated sampling [48.94555574632823]
再帰化は、ベイズニューラルネットワーク(BNN)の後部を、層幅が大きくなるにつれてKLがBNNに分岐する分布に変換する。
我々は,BNNを高速に混合するマルコフ連鎖モンテカルロ (MCMC) 後方サンプリングアルゴリズムを開発した。
完全接続ネットワークと残留ネットワークの双方の分離を伴わないため, 最大50倍の有効試料サイズを観測した。
論文 参考訳(メタデータ) (2022-06-15T17:11:08Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - Semi-Implicit Back Propagation [1.5533842336139065]
ニューラルネットワークトレーニングのための半単純バック伝搬法を提案する。
ニューロンの差は後方方向に伝播し、パラメータは近位写像で更新される。
MNISTとCIFAR-10の両方の実験により、提案アルゴリズムは損失減少とトレーニング/検証の精度の両方において、より良い性能をもたらすことが示された。
論文 参考訳(メタデータ) (2020-02-10T03:26:09Z) - Large Batch Training Does Not Need Warmup [111.07680619360528]
大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。
本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。
分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
論文 参考訳(メタデータ) (2020-02-04T23:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。