論文の概要: Understanding and Scheduling Weight Decay
- arxiv url: http://arxiv.org/abs/2011.11152v4
- Date: Tue, 21 Sep 2021 06:10:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 01:17:21.193229
- Title: Understanding and Scheduling Weight Decay
- Title(参考訳): 軽量化の理解とスケジューリング
- Authors: Zeke Xie, Issei Sato, Masashi Sugiyama
- Abstract要約: 本稿では, ウェイト崩壊の理論的解釈を学習力学の観点から提案する。
第2に,バッチサイズが大きくなるにつれて,学習速度よりも重量減少率を比例的に増加させる,大規模バッチトレーニングのための新しい重み劣化線形スケーリングルールを提案する。
第3に,ウェイト崩壊スケジューリングのための効果的な学習速度対応スケジューラであるSWD (Stable Weight Decay) 法が,我々の知る限り,ウェイト崩壊スケジューリングのための最初の実用的な設計である。
- 参考スコア(独自算出の注目度): 102.40224942903555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weight decay is a popular and even necessary regularization technique for
training deep neural networks that generalize well. Previous work usually
interpreted weight decay as a Gaussian prior from the Bayesian perspective.
However, weight decay sometimes shows mysterious behaviors beyond the
conventional understanding. For example, the optimal weight decay value tends
to be zero given long enough training time. Moreover, existing work typically
failed to recognize the importance of scheduling weight decay during training.
Our work aims at theoretically understanding novel behaviors of weight decay
and designing schedulers for weight decay in deep learning. This paper mainly
has three contributions. First, we propose a novel theoretical interpretation
of weight decay from the perspective of learning dynamics. Second, we propose a
novel weight-decay linear scaling rule for large-batch training that
proportionally increases weight decay rather than the learning rate as the
batch size increases. Third, we provide an effective learning-rate-aware
scheduler for weight decay, called the Stable Weight Decay (SWD) method, which,
to the best of our knowledge, is the first practical design for weight decay
scheduling. In our various experiments, the SWD method often makes improvements
over $L_{2}$ Regularization and Decoupled Weight Decay.
- Abstract(参考訳): 重みの減衰は、よく一般化された深層ニューラルネットワークを訓練するための、一般的で必要不可欠な正規化技術である。
以前の研究は通常、重みの減衰をベイズ的視点より前にガウシアンと解釈した。
しかし、体重減少は時折、従来の理解を超えた神秘的な行動を示す。
例えば、最適重量減衰値は十分なトレーニング時間でゼロとなる傾向にある。
さらに、既存の作業は通常、トレーニング中の体重減少のスケジューリングの重要性を認識できなかった。
本研究の目的は,ウェイト崩壊の新しい挙動の理論的理解と,ディープラーニングにおけるウェイト崩壊のためのスケジューラの設計である。
本論文は主に3つの貢献がある。
まず, 学習ダイナミクスの観点から, 軽量化の新たな理論的解釈を提案する。
第二に,バッチサイズが大きくなるにつれて,学習速度よりも体重減少率を比例的に増加させる,大規模バッチトレーニングのための新しい重み付け線形スケーリングルールを提案する。
第3に,ウェイト崩壊スケジューリングのための効果的な学習速度対応スケジューラであるSWD (Stable Weight Decay) 法が,我々の知る限り,ウェイト崩壊スケジューリングのための最初の実用的な設計である。
様々な実験において、SWD法はしばしば$L_{2}$正規化とDecoupled Weight Decayよりも改善される。
関連論文リスト
- Why Do We Need Weight Decay in Modern Deep Learning? [27.110071835818808]
重崩壊は、大規模言語モデルを含む最先端のディープネットワークを訓練する技術である。
本研究では,現代深層学習における重量減衰の役割が,古典的学習理論で研究される正規化効果と異なる点を強調する。
本稿では,SGDの非正規化を常に強調する最適化力学を,重み減衰がいかに修飾するかを示す。
論文 参考訳(メタデータ) (2023-10-06T17:58:21Z) - FedNAR: Federated Optimization with Normalized Annealing Regularization [54.42032094044368]
ウェイト崩壊の選択を探索し、ウェイト崩壊値が既存のFLアルゴリズムの収束に有意な影響を及ぼすことを確かめる。
我々は,既存のFLアルゴリズムにシームレスに統合可能なプラグインであるFederated Optimization with Normalized Annealing Regularization (FedNAR)を開発した。
論文 参考訳(メタデータ) (2023-10-04T21:11:40Z) - PathProx: A Proximal Gradient Algorithm for Weight Decay Regularized
Deep Neural Networks [25.114642281756495]
ウェイト崩壊(Weight decay)は、ディープラーニングにおいて最も広く使われている正規化形式の一つである。
本稿では、勾配勾配勾配は、この目的に対して非効率なアルゴリズムであると主張している。
ReLUアクティベーションを持つニューラルネットワークの場合、重み劣化対象に対する解は異なる目的の解と等価である。
論文 参考訳(メタデータ) (2022-10-06T17:22:40Z) - Characterizing the Implicit Bias of Regularized SGD in Rank Minimization [9.607159748020601]
ニューラルネットワークをミニバッチSGDでトレーニングすると、重み行列のランク最小化に偏りが生じることを示す。
具体的には、このバイアスはより小さいバッチサイズ、高い学習率、あるいは体重減少の増加でより顕著であることを示す。
このバイアスと一般化の関係を実証的に研究し、一般化に限界効果があることを見出した。
論文 参考訳(メタデータ) (2022-06-12T17:06:35Z) - Long-Tailed Recognition via Weight Balancing [66.03068252811993]
ナイーブトレーニングは、より高い精度で一般的なクラスに偏ったモデルを生成する。
重みのバランス、L2-正規化、重みの崩壊、MaxNormの3つの手法について検討する。
提案手法は,5つの標準ベンチマークにおける最先端の精度を実現する。
論文 参考訳(メタデータ) (2022-03-27T03:26:31Z) - The Implicit Biases of Stochastic Gradient Descent on Deep Neural
Networks with Batch Normalization [44.30960913470372]
バッチ正規化(BN-DNN)を伴うディープニューラルネットワークは、その正規化操作のために重み付け再スケーリングには不変である。
BN-DNNにおける勾配降下(SGD)の暗黙バイアスについて検討し,重量減衰の有効性に関する理論的説明を行う。
論文 参考訳(メタデータ) (2021-02-06T03:40:20Z) - Explicit regularization and implicit bias in deep network classifiers
trained with the square loss [2.8935588665357077]
平方損失で訓練された深いReLUネットワークは分類の仕事でよく機能するために観察されました。
正規化法を重み決定法とともに用いる場合,絶対最小ノルムの解への収束が期待できることを示す。
論文 参考訳(メタデータ) (2020-12-31T21:07:56Z) - Improve Generalization and Robustness of Neural Networks via Weight
Scale Shifting Invariant Regularizations [52.493315075385325]
重み劣化を含む正則化器の族は、均質な活性化関数を持つネットワークに対する本質的な重みのノルムをペナルティ化するのに有効でないことを示す。
そこで我々は,ニューラルネットワークの本質的な規範を効果的に制約する改良型正規化器を提案する。
論文 参考訳(メタデータ) (2020-08-07T02:55:28Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - On the Generalization of Stochastic Gradient Descent with Momentum [84.54924994010703]
運動量に基づく勾配降下(SGD)の加速変種は、機械学習モデルを訓練する際に広く用いられる。
まず,標準重球運動量(SGDM)を持つSGDの複数のエポックに対する安定性ギャップが非有界となる凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対しては、修正モーメントベースの更新規則、すなわち、幅広いステップサイズで初期運動量(SGDEM)を解析する。
論文 参考訳(メタデータ) (2018-09-12T17:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。