論文の概要: Reconciling Modern Deep Learning with Traditional Optimization Analyses:
The Intrinsic Learning Rate
- arxiv url: http://arxiv.org/abs/2010.02916v1
- Date: Tue, 6 Oct 2020 17:58:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 07:40:06.754274
- Title: Reconciling Modern Deep Learning with Traditional Optimization Analyses:
The Intrinsic Learning Rate
- Title(参考訳): 最新のディープラーニングと従来の最適化分析の調和:本質的学習率
- Authors: Zhiyuan Li, Kaifeng Lyu, Sanjeev Arora
- Abstract要約: 最近の研究は、今日のディープラーニングにおけるバッチ正規化の使用が、従来の最適化の観点から遠く離れていることを示唆している。
本稿では,正規化された網の振舞いが従来の視点から逸脱する他の方法を強調する。
我々はこれをFast Equilibrium Conjectureと呼び、バッチ正規化が有効である理由の鍵となることを示唆する。
- 参考スコア(独自算出の注目度): 36.83448475700536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works (e.g., (Li and Arora, 2020)) suggest that the use of popular
normalization schemes (including Batch Normalization) in today's deep learning
can move it far from a traditional optimization viewpoint, e.g., use of
exponentially increasing learning rates. The current paper highlights other
ways in which behavior of normalized nets departs from traditional viewpoints,
and then initiates a formal framework for studying their mathematics via
suitable adaptation of the conventional framework namely, modeling SGD-induced
training trajectory via a suitable stochastic differential equation (SDE) with
a noise term that captures gradient noise. This yields: (a) A new ' intrinsic
learning rate' parameter that is the product of the normal learning rate and
weight decay factor. Analysis of the SDE shows how the effective speed of
learning varies and equilibrates over time under the control of intrinsic LR.
(b) A challenge -- via theory and experiments -- to popular belief that good
generalization requires large learning rates at the start of training. (c) New
experiments, backed by mathematical intuition, suggesting the number of steps
to equilibrium (in function space) scales as the inverse of the intrinsic
learning rate, as opposed to the exponential time convergence bound implied by
SDE analysis. We name it the Fast Equilibrium Conjecture and suggest it holds
the key to why Batch Normalization is effective.
- Abstract(参考訳): 最近の研究(Li と Arora, 2020)は、今日のディープラーニングにおける一般的な正規化スキーム(バッチ正規化を含む)の使用は、従来の最適化の観点から、例えば指数関数的に増加する学習率の使用から遠ざかることができることを示唆している。
本論文は,従来の視点から正規化ネットの挙動が逸脱する他の方法に着目し,従来の枠組みの適切な適応による数学研究のための形式的枠組み,すなわち,勾配雑音を捕捉する雑音項を用いた適切な確率微分方程式(sde)によるsgd誘導訓練軌道のモデル化について述べる。
こうなる。
(a)正常な学習率と体重減少係数の積である新しい「本質的学習率」パラメータ。
SDEの分析は、学習の有効速度がどのように変化し、内在性LRの制御の下で時間とともに平衡することを示す。
(b)良質な一般化には、トレーニングの開始時に大きな学習率が必要であるという一般の信念への挑戦(理論と実験)
c) 数学的直観に基づく新たな実験は,sde解析によって示唆される指数的時間収束とは対照的に,本質的学習率の逆として(関数空間において)平衡へのステップの数はスケールすることを示唆している。
我々はこれをFast Equilibrium Conjectureと呼び、バッチ正規化が有効である理由の鍵となることを示唆する。
関連論文リスト
- Normalization and effective learning rates in reinforcement learning [52.59508428613934]
正規化層は近年,深層強化学習と連続学習文学においてルネッサンスを経験している。
正規化は、ネットワークパラメータのノルムにおける成長と効果的な学習速度における崩壊の間の等価性という、微妙だが重要な副作用をもたらすことを示す。
そこで本研究では,正規化・プロジェクトと呼ぶ単純な再パラメータ化により,学習率を明示的にする手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T20:58:01Z) - Accelerated Convergence of Stochastic Heavy Ball Method under Anisotropic Gradient Noise [16.12834917344859]
重球運動量法は加速収束を提供し、大きなバッチ設定でうまく機能するはずだと広く推測されている。
重球運動量は, SGDの偏差項の加速収束率を$tildemathcalO(sqrtkappa)$で達成し, ほぼ最適収束率を達成できることを示した。
つまり、重い球運動量を持つSGDは、分散機械学習やフェデレーション学習のような大規模なバッチ設定で有用である。
論文 参考訳(メタデータ) (2023-12-22T09:58:39Z) - The Marginal Value of Momentum for Small Learning Rate SGD [20.606430391298815]
モーメントは、勾配雑音のない強い凸条件下での勾配降下の収束を加速することが知られている。
実験により、最適学習率があまり大きくない実践訓練において、運動量には最適化と一般化の両方の利点があることがわかった。
論文 参考訳(メタデータ) (2023-07-27T21:01:26Z) - Distributional Gradient Matching for Learning Uncertain Neural Dynamics
Models [38.17499046781131]
本稿では,数値積分ボトルネックを回避するため,不確実なニューラル・オーダを推定するための新しい手法を提案する。
我々のアルゴリズム - 分布勾配マッチング (DGM) は、よりスムーズなモデルと動的モデルを共同で訓練し、ワッサーシュタイン損失を最小化することでそれらの勾配と一致する。
数値積分に基づく従来の近似推論手法と比較して,我々の手法は訓練がより速く,これまで見つからなかった軌道の予測がより高速であり,ニューラルODEの文脈では,はるかに正確であることがわかった。
論文 参考訳(メタデータ) (2021-06-22T08:40:51Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z) - Momentum via Primal Averaging: Theoretical Insights and Learning Rate
Schedules for Non-Convex Optimization [10.660480034605241]
ディープニューラルネットワークのような非トレーニングモデルのために、機械学習コミュニティ内で広く使用されている。
本研究では、SGDSPA(SGDSPA)形式のSGD等価な書き直しを利用して、運動量を持つSGDのリアプノフ解析を開発する。
論文 参考訳(メタデータ) (2020-10-01T13:46:32Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z) - On Learning Rates and Schr\"odinger Operators [105.32118775014015]
本稿では,学習率の影響に関する一般的な理論的分析を行う。
学習速度は、幅広い非ニューラルクラス関数に対してゼロとなる傾向にある。
論文 参考訳(メタデータ) (2020-04-15T09:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。