Fugu-MT 論文翻訳(概要): Learning Rate Perturbation: A Generic Plugin of Learning Rate Schedule towards Flatter Local Minima

論文の概要: Learning Rate Perturbation: A Generic Plugin of Learning Rate Schedule towards Flatter Local Minima

arxiv url: http://arxiv.org/abs/2208.11873v1
Date: Thu, 25 Aug 2022 05:05:18 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-26 13:42:34.923102
Title: Learning Rate Perturbation: A Generic Plugin of Learning Rate Schedule towards Flatter Local Minima
Title（参考訳）: 学習率摂動: フレッター局所最小化に向けた学習率スケジュールのジェネリックプラグイン
Authors: Hengyu Liu, Qiang Fu, Lun Du, Tiancheng Zhang, Ge Yu, Shi Han and Dongmei Zhang
Abstract要約: LEAP(LEArning Rate Perturbation)と呼ばれる一般学習率スケジュールプラグインを提案する。 LEAPは、学習率に一定の摂動を導入することにより、モデルトレーニングを改善するために、様々な学習率スケジュールに適用することができる。 LEAPを用いたトレーニングにより、多様なデータセット上での様々なディープラーニングモデルの性能を向上させることができることを示す広範な実験を行う。
参考スコア（独自算出の注目度）: 40.70374106466073
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Learning rate is one of the most important hyper-parameters that has a significant influence on neural network training. Learning rate schedules are widely used in real practice to adjust the learning rate according to pre-defined schedules for fast convergence and good generalization. However, existing learning rate schedules are all heuristic algorithms and lack theoretical support. Therefore, people usually choose the learning rate schedules through multiple ad-hoc trials, and the obtained learning rate schedules are sub-optimal. To boost the performance of the obtained sub-optimal learning rate schedule, we propose a generic learning rate schedule plugin, called LEArning Rate Perturbation (LEAP), which can be applied to various learning rate schedules to improve the model training by introducing a certain perturbation to the learning rate. We found that, with such a simple yet effective strategy, training processing exponentially favors flat minima rather than sharp minima with guaranteed convergence, which leads to better generalization ability. In addition, we conduct extensive experiments which show that training with LEAP can improve the performance of various deep learning models on diverse datasets using various learning rate schedules (including constant learning rate).
Abstract（参考訳）: 学習速度は、ニューラルネットワークトレーニングに大きな影響を与える最も重要なハイパーパラメータの1つである。学習率スケジュールは、高速収束と優れた一般化のための事前定義されたスケジュールに従って学習率を調整するために、実際に広く利用されている。しかし、既存の学習率スケジュールはすべてヒューリスティックなアルゴリズムであり、理論的サポートが欠けている。したがって、通常、複数のアドホックな試行を通じて学習率スケジュールを選択し、得られた学習率スケジュールは準最適である。得られた最適学習率スケジュールの性能を向上させるために,様々な学習率スケジュールに適用可能なleap(learning rate perturbation)と呼ばれる汎用学習率スケジュールプラグインを提案し,学習率に一定の摂動を導入することによりモデルトレーニングを改善する。このような単純かつ効果的な戦略により、トレーニング処理は、収束が保証されたシャープなミニマよりも、指数関数的に平坦なミニマを好むことが分かり、一般化能力の向上につながった。さらに,様々なデータセットにおける学習速度スケジュール(定常学習率を含む)を用いて,leapを用いた学習が様々な深層学習モデルの性能を向上させることを示す広範な実験を行った。

関連論文リスト

A Multi-Power Law for Loss Curve Prediction Across Learning Rate Schedules [67.87680482844884]
本稿では,大規模言語モデルの事前学習損失が,学習率の異なるスケジュール下でどのように進展するかを示す経験則を提案する。提案法は,学習率の総和に基づく電力法則と,学習率減衰による損失低減効果を考慮した電力法とを併用した多大電力法である。
論文参考訳（メタデータ） (2025-03-17T04:36:45Z)
Dynamic Learning Rate for Deep Reinforcement Learning: A Bandit Approach [0.9549646359252346]
深層強化学習(LRRL)のための動的学習率を提案する。 LRRLは、トレーニング中のエージェントのパフォーマンスに基づいて学習率を選択するメタラーニングアプローチである。実験の結果,LRRLは深部RLアルゴリズムの性能を大幅に向上できることが示された。
論文参考訳（メタデータ） (2024-10-16T14:15:28Z)
Normalization and effective learning rates in reinforcement learning [52.59508428613934]
正規化層は近年,深層強化学習と連続学習文学においてルネッサンスを経験している。正規化は、ネットワークパラメータのノルムにおける成長と効果的な学習速度における崩壊の間の等価性という、微妙だが重要な副作用をもたらすことを示す。そこで本研究では,正規化・プロジェクトと呼ぶ単純な再パラメータ化により,学習率を明示的にする手法を提案する。
論文参考訳（メタデータ） (2024-07-01T20:58:01Z)
Optimal Linear Decay Learning Rate Schedules and Further Refinements [46.79573408189601]
実際に使用される学習率のスケジュールは、理論によって推奨されるものとはほとんど似ていない。我々はこの理論と実践的ギャップの多くを閉じ、その結果、新しい問題適応型学習率スケジュールを導き出すことができる。
論文参考訳（メタデータ） (2023-10-11T19:16:35Z)
FedLALR: Client-Specific Adaptive Learning Rates Achieve Linear Speedup for Non-IID Data [54.81695390763957]
フェデレートラーニング(Federated Learning)は、分散機械学習の手法である。我々は,AMSGradの異種局所変種であるFedLALRを提案し,各クライアントが学習率を調整する。クライアントが指定した自動調整型学習率スケジューリングが,クライアント数に対して収束し,線形高速化を実現することを示す。
論文参考訳（メタデータ） (2023-09-18T12:35:05Z)
Frequency-aware SGD for Efficient Embedding Learning with Provable Benefits [35.543124939636044]
本稿では,各トークンに対して周波数依存学習率を適用し,トークン分布が不均衡な場合にはSGDと比較して高い高速化を示す,大規模Descent(Counter-based)対応のDescentを提案する。
論文参考訳（メタデータ） (2021-10-10T16:17:43Z)
Training Aware Sigmoidal Optimizer [2.99368851209995]
Aware Sigmoidal関数をトレーニングすると、ローカルミニマよりもはるかにサドルロスの風景が表示されます。本研究では,2相自動学習率スケジュールからなるTASO(Training Aware Sigmoidal Function)を提案する。提案手法をAdam、RMS、Adagradなどの一般的な適応学習率スケジュールと比較した。
論文参考訳（メタデータ） (2021-02-17T12:00:46Z)
Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。 AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文参考訳（メタデータ） (2020-10-21T14:49:00Z)
The Two Regimes of Deep Network Training [93.84309968956941]
本研究では,異なる学習スケジュールの効果と,それらを選択する適切な方法について検討する。この目的のために、我々は2つの異なる段階を分離し、これを「大きな段階的体制」と「小さな段階的体制」と呼ぶ。トレーニングアルゴリズムは学習率のスケジュールを大幅に単純化することができる。
論文参考訳（メタデータ） (2020-02-24T17:08:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。