論文の概要: How to decay your learning rate
- arxiv url: http://arxiv.org/abs/2103.12682v1
- Date: Tue, 23 Mar 2021 17:00:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-24 13:47:24.526389
- Title: How to decay your learning rate
- Title(参考訳): 学習率を低下させる方法
- Authors: Aitor Lewkowycz
- Abstract要約: abel: 重みの規範を追跡することで学習率を低下させる自動スケジューラを提案する。
ABELのパフォーマンスは調整されたスケジュールと一致し、パラメータに関してより堅牢である。
- 参考スコア(独自算出の注目度): 3.8073142980733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Complex learning rate schedules have become an integral part of deep
learning. We find empirically that common fine-tuned schedules decay the
learning rate after the weight norm bounces. This leads to the proposal of
ABEL: an automatic scheduler which decays the learning rate by keeping track of
the weight norm. ABEL's performance matches that of tuned schedules and is more
robust with respect to its parameters. Through extensive experiments in vision,
NLP, and RL, we show that if the weight norm does not bounce, we can simplify
schedules even further with no loss in performance. In such cases, a complex
schedule has similar performance to a constant learning rate with a decay at
the end of training.
- Abstract(参考訳): 複雑な学習率のスケジュールは、ディープラーニングの不可欠な部分となっている。
一般的な微調整スケジュールは、ウェイトノルムのバウンス後に学習率を低下させる。
これにより、abel: 重みの規範を追跡することで学習率を低下させる自動スケジューラが提案される。
ABELのパフォーマンスは調整されたスケジュールと一致し、パラメータに関してより堅牢である。
視覚、nlp、rlにおける広範囲な実験を通じて、重量規範が跳ね返らない場合、パフォーマンスの損失を伴わずにさらにスケジュールを単純化できることを示した。
このような場合、複雑なスケジュールは、訓練終了時の減衰を伴う一定の学習率に類似する性能を有する。
関連論文リスト
- Normalization and effective learning rates in reinforcement learning [52.59508428613934]
正規化層は近年,深層強化学習と連続学習文学においてルネッサンスを経験している。
正規化は、ネットワークパラメータのノルムにおける成長と効果的な学習速度における崩壊の間の等価性という、微妙だが重要な副作用をもたらすことを示す。
そこで本研究では,正規化・プロジェクトと呼ぶ単純な再パラメータ化により,学習率を明示的にする手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T20:58:01Z) - Optimal Linear Decay Learning Rate Schedules and Further Refinements [46.79573408189601]
実際に使用される学習率のスケジュールは、理論によって推奨されるものとはほとんど似ていない。
我々はこの理論と実践的ギャップの多くを閉じ、その結果、新しい問題適応型学習率スケジュールを導き出すことができる。
論文 参考訳(メタデータ) (2023-10-11T19:16:35Z) - Why Do We Need Weight Decay in Modern Deep Learning? [24.81634291051533]
重崩壊は、画像分類から大規模言語モデルまで、最先端の深層ネットワークを訓練するための技術である。
本研究では,現代深層学習における重量減衰の役割が,古典的学習理論で研究される正規化効果と異なる点を強調する。
マルチパスSGDで訓練された視覚タスクのディープネットワークにおいて、重み劣化がSGDの暗黙の正則化を促進する最適化力学をどのように修正するかを示す。
論文 参考訳(メタデータ) (2023-10-06T17:58:21Z) - Learning Rate Perturbation: A Generic Plugin of Learning Rate Schedule
towards Flatter Local Minima [40.70374106466073]
LEAP(LEArning Rate Perturbation)と呼ばれる一般学習率スケジュールプラグインを提案する。
LEAPは、学習率に一定の摂動を導入することにより、モデルトレーニングを改善するために、様々な学習率スケジュールに適用することができる。
LEAPを用いたトレーニングにより、多様なデータセット上での様々なディープラーニングモデルの性能を向上させることができることを示す広範な実験を行う。
論文 参考訳(メタデータ) (2022-08-25T05:05:18Z) - Neural Collapse Inspired Attraction-Repulsion-Balanced Loss for
Imbalanced Learning [97.81549071978789]
勾配の異なる成分のバランスをとるために,Attraction-Repulsion-Balanced Loss (ARB-Loss)を提案する。
大規模分類とセグメンテーションデータセットの実験を行い、ARB-Lossは最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-04-19T08:23:23Z) - Long-Tailed Recognition via Weight Balancing [66.03068252811993]
ナイーブトレーニングは、より高い精度で一般的なクラスに偏ったモデルを生成する。
重みのバランス、L2-正規化、重みの崩壊、MaxNormの3つの手法について検討する。
提案手法は,5つの標準ベンチマークにおける最先端の精度を実現する。
論文 参考訳(メタデータ) (2022-03-27T03:26:31Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - Parametric Contrastive Learning [65.70554597097248]
本研究では,長期学習のためのパラメトリックコントラスト学習(PaCo)を提案する。
PaCoは、同じクラスのクローズのサンプルをプッシュする強度を適応的に増強することができる。
長い尾を持つCIFAR、ImageNet、Places、iNaturalist 2018の実験は、長い尾を持つ認識のための新しい最先端技術を示している。
論文 参考訳(メタデータ) (2021-07-26T08:37:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。