論文の概要: How to decay your learning rate
- arxiv url: http://arxiv.org/abs/2103.12682v1
- Date: Tue, 23 Mar 2021 17:00:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-24 13:47:24.526389
- Title: How to decay your learning rate
- Title(参考訳): 学習率を低下させる方法
- Authors: Aitor Lewkowycz
- Abstract要約: abel: 重みの規範を追跡することで学習率を低下させる自動スケジューラを提案する。
ABELのパフォーマンスは調整されたスケジュールと一致し、パラメータに関してより堅牢である。
- 参考スコア(独自算出の注目度): 3.8073142980733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Complex learning rate schedules have become an integral part of deep
learning. We find empirically that common fine-tuned schedules decay the
learning rate after the weight norm bounces. This leads to the proposal of
ABEL: an automatic scheduler which decays the learning rate by keeping track of
the weight norm. ABEL's performance matches that of tuned schedules and is more
robust with respect to its parameters. Through extensive experiments in vision,
NLP, and RL, we show that if the weight norm does not bounce, we can simplify
schedules even further with no loss in performance. In such cases, a complex
schedule has similar performance to a constant learning rate with a decay at
the end of training.
- Abstract(参考訳): 複雑な学習率のスケジュールは、ディープラーニングの不可欠な部分となっている。
一般的な微調整スケジュールは、ウェイトノルムのバウンス後に学習率を低下させる。
これにより、abel: 重みの規範を追跡することで学習率を低下させる自動スケジューラが提案される。
ABELのパフォーマンスは調整されたスケジュールと一致し、パラメータに関してより堅牢である。
視覚、nlp、rlにおける広範囲な実験を通じて、重量規範が跳ね返らない場合、パフォーマンスの損失を伴わずにさらにスケジュールを単純化できることを示した。
このような場合、複雑なスケジュールは、訓練終了時の減衰を伴う一定の学習率に類似する性能を有する。
関連論文リスト
- Tune without Validation: Searching for Learning Rate and Weight Decay on
Training Sets [0.0]
Tune without Validation (Twin)は、学習率と体重減少をチューニングするためのパイプラインである。
我々は、20の画像分類データセットに関する広範な実験を行い、ディープネットワークの数家族を訓練する。
我々は,スクラッチと微調整の訓練において適切なHP選択を示し,小サンプルシナリオを強調した。
論文 参考訳(メタデータ) (2024-03-08T18:57:00Z) - Temperature Balancing, Layer-wise Weight Analysis, and Neural Network
Training [58.20089993899729]
本稿では,直感的で効果的な階層学習手法であるTempBalanceを提案する。
我々は、TempBalanceが通常のSGDと注意深く調整されたスペクトルノルム正規化より著しく優れていることを示す。
また、TempBalanceは最先端のメトリクスやスケジューラよりも優れています。
論文 参考訳(メタデータ) (2023-12-01T05:38:17Z) - When, Why and How Much? Adaptive Learning Rate Scheduling by Refinement [51.12097770185634]
実際に使用される学習率のスケジュールは、理論によって推奨されるものとはほとんど似ていない。
我々はこの理論と実践的ギャップの多くを閉じ、その結果、新しい問題適応型学習率スケジュールを導き出すことができる。
論文 参考訳(メタデータ) (2023-10-11T19:16:35Z) - Why Do We Need Weight Decay in Modern Deep Learning? [27.110071835818808]
重崩壊は、大規模言語モデルを含む最先端のディープネットワークを訓練する技術である。
本研究では,現代深層学習における重量減衰の役割が,古典的学習理論で研究される正規化効果と異なる点を強調する。
本稿では,SGDの非正規化を常に強調する最適化力学を,重み減衰がいかに修飾するかを示す。
論文 参考訳(メタデータ) (2023-10-06T17:58:21Z) - Learning Rate Perturbation: A Generic Plugin of Learning Rate Schedule
towards Flatter Local Minima [40.70374106466073]
LEAP(LEArning Rate Perturbation)と呼ばれる一般学習率スケジュールプラグインを提案する。
LEAPは、学習率に一定の摂動を導入することにより、モデルトレーニングを改善するために、様々な学習率スケジュールに適用することができる。
LEAPを用いたトレーニングにより、多様なデータセット上での様々なディープラーニングモデルの性能を向上させることができることを示す広範な実験を行う。
論文 参考訳(メタデータ) (2022-08-25T05:05:18Z) - Neural Collapse Inspired Attraction-Repulsion-Balanced Loss for
Imbalanced Learning [97.81549071978789]
勾配の異なる成分のバランスをとるために,Attraction-Repulsion-Balanced Loss (ARB-Loss)を提案する。
大規模分類とセグメンテーションデータセットの実験を行い、ARB-Lossは最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-04-19T08:23:23Z) - Long-Tailed Recognition via Weight Balancing [66.03068252811993]
ナイーブトレーニングは、より高い精度で一般的なクラスに偏ったモデルを生成する。
重みのバランス、L2-正規化、重みの崩壊、MaxNormの3つの手法について検討する。
提案手法は,5つの標準ベンチマークにおける最先端の精度を実現する。
論文 参考訳(メタデータ) (2022-03-27T03:26:31Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - Parametric Contrastive Learning [65.70554597097248]
本研究では,長期学習のためのパラメトリックコントラスト学習(PaCo)を提案する。
PaCoは、同じクラスのクローズのサンプルをプッシュする強度を適応的に増強することができる。
長い尾を持つCIFAR、ImageNet、Places、iNaturalist 2018の実験は、長い尾を持つ認識のための新しい最先端技術を示している。
論文 参考訳(メタデータ) (2021-07-26T08:37:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。