Fugu-MT 論文翻訳(概要): How to decay your learning rate

論文の概要: How to decay your learning rate

arxiv url: http://arxiv.org/abs/2103.12682v1
Date: Tue, 23 Mar 2021 17:00:23 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-24 13:47:24.526389
Title: How to decay your learning rate
Title（参考訳）: 学習率を低下させる方法
Authors: Aitor Lewkowycz
Abstract要約: abel: 重みの規範を追跡することで学習率を低下させる自動スケジューラを提案する。 ABELのパフォーマンスは調整されたスケジュールと一致し、パラメータに関してより堅牢である。
参考スコア（独自算出の注目度）: 3.8073142980733
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Complex learning rate schedules have become an integral part of deep learning. We find empirically that common fine-tuned schedules decay the learning rate after the weight norm bounces. This leads to the proposal of ABEL: an automatic scheduler which decays the learning rate by keeping track of the weight norm. ABEL's performance matches that of tuned schedules and is more robust with respect to its parameters. Through extensive experiments in vision, NLP, and RL, we show that if the weight norm does not bounce, we can simplify schedules even further with no loss in performance. In such cases, a complex schedule has similar performance to a constant learning rate with a decay at the end of training.
Abstract（参考訳）: 複雑な学習率のスケジュールは、ディープラーニングの不可欠な部分となっている。一般的な微調整スケジュールは、ウェイトノルムのバウンス後に学習率を低下させる。これにより、abel: 重みの規範を追跡することで学習率を低下させる自動スケジューラが提案される。 ABELのパフォーマンスは調整されたスケジュールと一致し、パラメータに関してより堅牢である。視覚、nlp、rlにおける広範囲な実験を通じて、重量規範が跳ね返らない場合、パフォーマンスの損失を伴わずにさらにスケジュールを単純化できることを示した。このような場合、複雑なスケジュールは、訓練終了時の減衰を伴う一定の学習率に類似する性能を有する。

関連論文リスト

A Multi-Power Law for Loss Curve Prediction Across Learning Rate Schedules [67.87680482844884]
本稿では,大規模言語モデルの事前学習損失が,学習率の異なるスケジュール下でどのように進展するかを示す経験則を提案する。提案法は,学習率の総和に基づく電力法則と,学習率減衰による損失低減効果を考慮した電力法とを併用した多大電力法である。
論文参考訳（メタデータ） (2025-03-17T04:36:45Z)
Normalization and effective learning rates in reinforcement learning [52.59508428613934]
正規化層は近年,深層強化学習と連続学習文学においてルネッサンスを経験している。正規化は、ネットワークパラメータのノルムにおける成長と効果的な学習速度における崩壊の間の等価性という、微妙だが重要な副作用をもたらすことを示す。そこで本研究では,正規化・プロジェクトと呼ぶ単純な再パラメータ化により,学習率を明示的にする手法を提案する。
論文参考訳（メタデータ） (2024-07-01T20:58:01Z)
The Right Time Matters: Data Arrangement Affects Zero-Shot Generalization in Instruction Tuning [86.19804569376333]
インストラクションチューニングにおいてゼロショットの一般化は非常に早い段階で起こることを示す。より基礎的なトレーニングデータアレンジメントフレームワークであるテスト中心型マルチターンアレンジメントを提案する。
論文参考訳（メタデータ） (2024-06-17T16:40:21Z)
Optimal Linear Decay Learning Rate Schedules and Further Refinements [46.79573408189601]
実際に使用される学習率のスケジュールは、理論によって推奨されるものとはほとんど似ていない。我々はこの理論と実践的ギャップの多くを閉じ、その結果、新しい問題適応型学習率スケジュールを導き出すことができる。
論文参考訳（メタデータ） (2023-10-11T19:16:35Z)
Why Do We Need Weight Decay in Modern Deep Learning? [24.81634291051533]
重崩壊は、画像分類から大規模言語モデルまで、最先端の深層ネットワークを訓練するための技術である。本研究では,現代深層学習における重量減衰の役割が,古典的学習理論で研究される正規化効果と異なる点を強調する。マルチパスSGDで訓練された視覚タスクのディープネットワークにおいて、重み劣化がSGDの暗黙の正則化を促進する最適化力学をどのように修正するかを示す。
論文参考訳（メタデータ） (2023-10-06T17:58:21Z)
Learning Rate Perturbation: A Generic Plugin of Learning Rate Schedule towards Flatter Local Minima [40.70374106466073]
LEAP(LEArning Rate Perturbation)と呼ばれる一般学習率スケジュールプラグインを提案する。 LEAPは、学習率に一定の摂動を導入することにより、モデルトレーニングを改善するために、様々な学習率スケジュールに適用することができる。 LEAPを用いたトレーニングにより、多様なデータセット上での様々なディープラーニングモデルの性能を向上させることができることを示す広範な実験を行う。
論文参考訳（メタデータ） (2022-08-25T05:05:18Z)
Neural Collapse Inspired Attraction-Repulsion-Balanced Loss for Imbalanced Learning [97.81549071978789]
勾配の異なる成分のバランスをとるために,Attraction-Repulsion-Balanced Loss (ARB-Loss)を提案する。大規模分類とセグメンテーションデータセットの実験を行い、ARB-Lossは最先端の性能を実現する。
論文参考訳（メタデータ） (2022-04-19T08:23:23Z)
Long-Tailed Recognition via Weight Balancing [66.03068252811993]
ナイーブトレーニングは、より高い精度で一般的なクラスに偏ったモデルを生成する。重みのバランス、L2-正規化、重みの崩壊、MaxNormの3つの手法について検討する。提案手法は,5つの標準ベンチマークにおける最先端の精度を実現する。
論文参考訳（メタデータ） (2022-03-27T03:26:31Z)
CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文参考訳（メタデータ） (2022-02-11T13:49:51Z)
Parametric Contrastive Learning [65.70554597097248]
本研究では,長期学習のためのパラメトリックコントラスト学習(PaCo)を提案する。 PaCoは、同じクラスのクローズのサンプルをプッシュする強度を適応的に増強することができる。長い尾を持つCIFAR、ImageNet、Places、iNaturalist 2018の実験は、長い尾を持つ認識のための新しい最先端技術を示している。
論文参考訳（メタデータ） (2021-07-26T08:37:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。