論文の概要: Learning Rate Perturbation: A Generic Plugin of Learning Rate Schedule
towards Flatter Local Minima
- arxiv url: http://arxiv.org/abs/2208.11873v1
- Date: Thu, 25 Aug 2022 05:05:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-26 13:42:34.923102
- Title: Learning Rate Perturbation: A Generic Plugin of Learning Rate Schedule
towards Flatter Local Minima
- Title(参考訳): 学習率摂動: フレッター局所最小化に向けた学習率スケジュールのジェネリックプラグイン
- Authors: Hengyu Liu, Qiang Fu, Lun Du, Tiancheng Zhang, Ge Yu, Shi Han and
Dongmei Zhang
- Abstract要約: LEAP(LEArning Rate Perturbation)と呼ばれる一般学習率スケジュールプラグインを提案する。
LEAPは、学習率に一定の摂動を導入することにより、モデルトレーニングを改善するために、様々な学習率スケジュールに適用することができる。
LEAPを用いたトレーニングにより、多様なデータセット上での様々なディープラーニングモデルの性能を向上させることができることを示す広範な実験を行う。
- 参考スコア(独自算出の注目度): 40.70374106466073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning rate is one of the most important hyper-parameters that has a
significant influence on neural network training. Learning rate schedules are
widely used in real practice to adjust the learning rate according to
pre-defined schedules for fast convergence and good generalization. However,
existing learning rate schedules are all heuristic algorithms and lack
theoretical support. Therefore, people usually choose the learning rate
schedules through multiple ad-hoc trials, and the obtained learning rate
schedules are sub-optimal. To boost the performance of the obtained sub-optimal
learning rate schedule, we propose a generic learning rate schedule plugin,
called LEArning Rate Perturbation (LEAP), which can be applied to various
learning rate schedules to improve the model training by introducing a certain
perturbation to the learning rate. We found that, with such a simple yet
effective strategy, training processing exponentially favors flat minima rather
than sharp minima with guaranteed convergence, which leads to better
generalization ability. In addition, we conduct extensive experiments which
show that training with LEAP can improve the performance of various deep
learning models on diverse datasets using various learning rate schedules
(including constant learning rate).
- Abstract(参考訳): 学習速度は、ニューラルネットワークトレーニングに大きな影響を与える最も重要なハイパーパラメータの1つである。
学習率スケジュールは、高速収束と優れた一般化のための事前定義されたスケジュールに従って学習率を調整するために、実際に広く利用されている。
しかし、既存の学習率スケジュールはすべてヒューリスティックなアルゴリズムであり、理論的サポートが欠けている。
したがって、通常、複数のアドホックな試行を通じて学習率スケジュールを選択し、得られた学習率スケジュールは準最適である。
得られた最適学習率スケジュールの性能を向上させるために,様々な学習率スケジュールに適用可能なleap(learning rate perturbation)と呼ばれる汎用学習率スケジュールプラグインを提案し,学習率に一定の摂動を導入することによりモデルトレーニングを改善する。
このような単純かつ効果的な戦略により、トレーニング処理は、収束が保証されたシャープなミニマよりも、指数関数的に平坦なミニマを好むことが分かり、一般化能力の向上につながった。
さらに,様々なデータセットにおける学習速度スケジュール(定常学習率を含む)を用いて,leapを用いた学習が様々な深層学習モデルの性能を向上させることを示す広範な実験を行った。
関連論文リスト
- When, Why and How Much? Adaptive Learning Rate Scheduling by Refinement [51.12097770185634]
実際に使用される学習率のスケジュールは、理論によって推奨されるものとはほとんど似ていない。
我々はこの理論と実践的ギャップの多くを閉じ、その結果、新しい問題適応型学習率スケジュールを導き出すことができる。
論文 参考訳(メタデータ) (2023-10-11T19:16:35Z) - FedLALR: Client-Specific Adaptive Learning Rates Achieve Linear Speedup
for Non-IID Data [54.81695390763957]
フェデレートラーニング(Federated Learning)は、分散機械学習の手法である。
我々は,AMSGradの異種局所変種であるFedLALRを提案し,各クライアントが学習率を調整する。
クライアントが指定した自動調整型学習率スケジューリングが,クライアント数に対して収束し,線形高速化を実現することを示す。
論文 参考訳(メタデータ) (2023-09-18T12:35:05Z) - Time Series Contrastive Learning with Information-Aware Augmentations [57.45139904366001]
コントラスト学習の鍵となる要素は、いくつかの先行を示唆する適切な拡張を選択して、実現可能な正のサンプルを構築することである。
対照的な学習タスクやデータセットに意味のある時系列データの増大をどうやって見つけるかは、未解決の問題である。
本稿では,時系列表現学習のための最適な拡張を適応的に選択する情報認識拡張を用いた新しいコントラスト学習手法であるInfoTSを提案する。
論文 参考訳(メタデータ) (2023-03-21T15:02:50Z) - Frequency-aware SGD for Efficient Embedding Learning with Provable
Benefits [35.543124939636044]
本稿では,各トークンに対して周波数依存学習率を適用し,トークン分布が不均衡な場合にはSGDと比較して高い高速化を示す,大規模Descent(Counter-based)対応のDescentを提案する。
論文 参考訳(メタデータ) (2021-10-10T16:17:43Z) - Training Aware Sigmoidal Optimizer [2.99368851209995]
Aware Sigmoidal関数をトレーニングすると、ローカルミニマよりもはるかにサドルロスの風景が表示されます。
本研究では,2相自動学習率スケジュールからなるTASO(Training Aware Sigmoidal Function)を提案する。
提案手法をAdam、RMS、Adagradなどの一般的な適応学習率スケジュールと比較した。
論文 参考訳(メタデータ) (2021-02-17T12:00:46Z) - A Theory of Universal Learning [26.51949485387526]
普遍的な学習の確率は3つしかないことを示す。
任意の概念クラスの学習曲線は指数的あるいは任意に遅い速度で減衰することを示す。
論文 参考訳(メタデータ) (2020-11-09T15:10:32Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - META-Learning Eligibility Traces for More Sample Efficient Temporal
Difference Learning [2.0559497209595823]
そこで本稿では,状態依存的な方法で,可視性トレースパラメータを調整するためのメタラーニング手法を提案する。
この適応は、更新対象の分布情報をオンラインで学習する補助学習者の助けを借りて達成される。
提案手法は,いくつかの前提条件下では,全体の目標誤差を最小限に抑えて,更新対象の全体的な品質を改善する。
論文 参考訳(メタデータ) (2020-06-16T03:41:07Z) - The Two Regimes of Deep Network Training [93.84309968956941]
本研究では,異なる学習スケジュールの効果と,それらを選択する適切な方法について検討する。
この目的のために、我々は2つの異なる段階を分離し、これを「大きな段階的体制」と「小さな段階的体制」と呼ぶ。
トレーニングアルゴリズムは学習率のスケジュールを大幅に単純化することができる。
論文 参考訳(メタデータ) (2020-02-24T17:08:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。