論文の概要: Learning Rate Perturbation: A Generic Plugin of Learning Rate Schedule
towards Flatter Local Minima
- arxiv url: http://arxiv.org/abs/2208.11873v1
- Date: Thu, 25 Aug 2022 05:05:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-26 13:42:34.923102
- Title: Learning Rate Perturbation: A Generic Plugin of Learning Rate Schedule
towards Flatter Local Minima
- Title(参考訳): 学習率摂動: フレッター局所最小化に向けた学習率スケジュールのジェネリックプラグイン
- Authors: Hengyu Liu, Qiang Fu, Lun Du, Tiancheng Zhang, Ge Yu, Shi Han and
Dongmei Zhang
- Abstract要約: LEAP(LEArning Rate Perturbation)と呼ばれる一般学習率スケジュールプラグインを提案する。
LEAPは、学習率に一定の摂動を導入することにより、モデルトレーニングを改善するために、様々な学習率スケジュールに適用することができる。
LEAPを用いたトレーニングにより、多様なデータセット上での様々なディープラーニングモデルの性能を向上させることができることを示す広範な実験を行う。
- 参考スコア(独自算出の注目度): 40.70374106466073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning rate is one of the most important hyper-parameters that has a
significant influence on neural network training. Learning rate schedules are
widely used in real practice to adjust the learning rate according to
pre-defined schedules for fast convergence and good generalization. However,
existing learning rate schedules are all heuristic algorithms and lack
theoretical support. Therefore, people usually choose the learning rate
schedules through multiple ad-hoc trials, and the obtained learning rate
schedules are sub-optimal. To boost the performance of the obtained sub-optimal
learning rate schedule, we propose a generic learning rate schedule plugin,
called LEArning Rate Perturbation (LEAP), which can be applied to various
learning rate schedules to improve the model training by introducing a certain
perturbation to the learning rate. We found that, with such a simple yet
effective strategy, training processing exponentially favors flat minima rather
than sharp minima with guaranteed convergence, which leads to better
generalization ability. In addition, we conduct extensive experiments which
show that training with LEAP can improve the performance of various deep
learning models on diverse datasets using various learning rate schedules
(including constant learning rate).
- Abstract(参考訳): 学習速度は、ニューラルネットワークトレーニングに大きな影響を与える最も重要なハイパーパラメータの1つである。
学習率スケジュールは、高速収束と優れた一般化のための事前定義されたスケジュールに従って学習率を調整するために、実際に広く利用されている。
しかし、既存の学習率スケジュールはすべてヒューリスティックなアルゴリズムであり、理論的サポートが欠けている。
したがって、通常、複数のアドホックな試行を通じて学習率スケジュールを選択し、得られた学習率スケジュールは準最適である。
得られた最適学習率スケジュールの性能を向上させるために,様々な学習率スケジュールに適用可能なleap(learning rate perturbation)と呼ばれる汎用学習率スケジュールプラグインを提案し,学習率に一定の摂動を導入することによりモデルトレーニングを改善する。
このような単純かつ効果的な戦略により、トレーニング処理は、収束が保証されたシャープなミニマよりも、指数関数的に平坦なミニマを好むことが分かり、一般化能力の向上につながった。
さらに,様々なデータセットにおける学習速度スケジュール(定常学習率を含む)を用いて,leapを用いた学習が様々な深層学習モデルの性能を向上させることを示す広範な実験を行った。
関連論文リスト
- Dynamic Learning Rate for Deep Reinforcement Learning: A Bandit Approach [0.9549646359252346]
深層強化学習(LRRL)のための動的学習率を提案する。
LRRLは、トレーニング中のエージェントのパフォーマンスに基づいて学習率を選択するメタラーニングアプローチである。
実験の結果,LRRLは深部RLアルゴリズムの性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2024-10-16T14:15:28Z) - Normalization and effective learning rates in reinforcement learning [52.59508428613934]
正規化層は近年,深層強化学習と連続学習文学においてルネッサンスを経験している。
正規化は、ネットワークパラメータのノルムにおける成長と効果的な学習速度における崩壊の間の等価性という、微妙だが重要な副作用をもたらすことを示す。
そこで本研究では,正規化・プロジェクトと呼ぶ単純な再パラメータ化により,学習率を明示的にする手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T20:58:01Z) - Optimal Linear Decay Learning Rate Schedules and Further Refinements [46.79573408189601]
実際に使用される学習率のスケジュールは、理論によって推奨されるものとはほとんど似ていない。
我々はこの理論と実践的ギャップの多くを閉じ、その結果、新しい問題適応型学習率スケジュールを導き出すことができる。
論文 参考訳(メタデータ) (2023-10-11T19:16:35Z) - FedLALR: Client-Specific Adaptive Learning Rates Achieve Linear Speedup
for Non-IID Data [54.81695390763957]
フェデレートラーニング(Federated Learning)は、分散機械学習の手法である。
我々は,AMSGradの異種局所変種であるFedLALRを提案し,各クライアントが学習率を調整する。
クライアントが指定した自動調整型学習率スケジューリングが,クライアント数に対して収束し,線形高速化を実現することを示す。
論文 参考訳(メタデータ) (2023-09-18T12:35:05Z) - Frequency-aware SGD for Efficient Embedding Learning with Provable
Benefits [35.543124939636044]
本稿では,各トークンに対して周波数依存学習率を適用し,トークン分布が不均衡な場合にはSGDと比較して高い高速化を示す,大規模Descent(Counter-based)対応のDescentを提案する。
論文 参考訳(メタデータ) (2021-10-10T16:17:43Z) - Training Aware Sigmoidal Optimizer [2.99368851209995]
Aware Sigmoidal関数をトレーニングすると、ローカルミニマよりもはるかにサドルロスの風景が表示されます。
本研究では,2相自動学習率スケジュールからなるTASO(Training Aware Sigmoidal Function)を提案する。
提案手法をAdam、RMS、Adagradなどの一般的な適応学習率スケジュールと比較した。
論文 参考訳(メタデータ) (2021-02-17T12:00:46Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - The Two Regimes of Deep Network Training [93.84309968956941]
本研究では,異なる学習スケジュールの効果と,それらを選択する適切な方法について検討する。
この目的のために、我々は2つの異なる段階を分離し、これを「大きな段階的体制」と「小さな段階的体制」と呼ぶ。
トレーニングアルゴリズムは学習率のスケジュールを大幅に単純化することができる。
論文 参考訳(メタデータ) (2020-02-24T17:08:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。