論文の概要: Understanding and Scheduling Weight Decay
- arxiv url: http://arxiv.org/abs/2011.11152v4
- Date: Tue, 21 Sep 2021 06:10:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 01:17:21.193229
- Title: Understanding and Scheduling Weight Decay
- Title(参考訳): 軽量化の理解とスケジューリング
- Authors: Zeke Xie, Issei Sato, Masashi Sugiyama
- Abstract要約: 本稿では, ウェイト崩壊の理論的解釈を学習力学の観点から提案する。
第2に,バッチサイズが大きくなるにつれて,学習速度よりも重量減少率を比例的に増加させる,大規模バッチトレーニングのための新しい重み劣化線形スケーリングルールを提案する。
第3に,ウェイト崩壊スケジューリングのための効果的な学習速度対応スケジューラであるSWD (Stable Weight Decay) 法が,我々の知る限り,ウェイト崩壊スケジューリングのための最初の実用的な設計である。
- 参考スコア(独自算出の注目度): 102.40224942903555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weight decay is a popular and even necessary regularization technique for
training deep neural networks that generalize well. Previous work usually
interpreted weight decay as a Gaussian prior from the Bayesian perspective.
However, weight decay sometimes shows mysterious behaviors beyond the
conventional understanding. For example, the optimal weight decay value tends
to be zero given long enough training time. Moreover, existing work typically
failed to recognize the importance of scheduling weight decay during training.
Our work aims at theoretically understanding novel behaviors of weight decay
and designing schedulers for weight decay in deep learning. This paper mainly
has three contributions. First, we propose a novel theoretical interpretation
of weight decay from the perspective of learning dynamics. Second, we propose a
novel weight-decay linear scaling rule for large-batch training that
proportionally increases weight decay rather than the learning rate as the
batch size increases. Third, we provide an effective learning-rate-aware
scheduler for weight decay, called the Stable Weight Decay (SWD) method, which,
to the best of our knowledge, is the first practical design for weight decay
scheduling. In our various experiments, the SWD method often makes improvements
over $L_{2}$ Regularization and Decoupled Weight Decay.
- Abstract(参考訳): 重みの減衰は、よく一般化された深層ニューラルネットワークを訓練するための、一般的で必要不可欠な正規化技術である。
以前の研究は通常、重みの減衰をベイズ的視点より前にガウシアンと解釈した。
しかし、体重減少は時折、従来の理解を超えた神秘的な行動を示す。
例えば、最適重量減衰値は十分なトレーニング時間でゼロとなる傾向にある。
さらに、既存の作業は通常、トレーニング中の体重減少のスケジューリングの重要性を認識できなかった。
本研究の目的は,ウェイト崩壊の新しい挙動の理論的理解と,ディープラーニングにおけるウェイト崩壊のためのスケジューラの設計である。
本論文は主に3つの貢献がある。
まず, 学習ダイナミクスの観点から, 軽量化の新たな理論的解釈を提案する。
第二に,バッチサイズが大きくなるにつれて,学習速度よりも体重減少率を比例的に増加させる,大規模バッチトレーニングのための新しい重み付け線形スケーリングルールを提案する。
第3に,ウェイト崩壊スケジューリングのための効果的な学習速度対応スケジューラであるSWD (Stable Weight Decay) 法が,我々の知る限り,ウェイト崩壊スケジューリングのための最初の実用的な設計である。
様々な実験において、SWD法はしばしば$L_{2}$正規化とDecoupled Weight Decayよりも改善される。
関連論文リスト
- Rethinking Weight Decay for Robust Fine-Tuning of Foundation Models [27.847140934456288]
本稿では,新しい重み劣化手法Selective Projection Decay (SPD)を提案する。
SPDは特定の層に強いペナルティを課し、他の層は自由に変更できる。
SPDを搭載した場合、Adamはベンチマーク上でより優れた分散ロバスト性とアウト・オブ・ディストリビュート性能を提供する。
論文 参考訳(メタデータ) (2024-11-03T23:36:53Z) - Why Do We Need Weight Decay in Modern Deep Learning? [24.81634291051533]
重崩壊は、画像分類から大規模言語モデルまで、最先端の深層ネットワークを訓練するための技術である。
本研究では,現代深層学習における重量減衰の役割が,古典的学習理論で研究される正規化効果と異なる点を強調する。
マルチパスSGDで訓練された視覚タスクのディープネットワークにおいて、重み劣化がSGDの暗黙の正則化を促進する最適化力学をどのように修正するかを示す。
論文 参考訳(メタデータ) (2023-10-06T17:58:21Z) - FedNAR: Federated Optimization with Normalized Annealing Regularization [54.42032094044368]
ウェイト崩壊の選択を探索し、ウェイト崩壊値が既存のFLアルゴリズムの収束に有意な影響を及ぼすことを確かめる。
我々は,既存のFLアルゴリズムにシームレスに統合可能なプラグインであるFederated Optimization with Normalized Annealing Regularization (FedNAR)を開発した。
論文 参考訳(メタデータ) (2023-10-04T21:11:40Z) - PathProx: A Proximal Gradient Algorithm for Weight Decay Regularized
Deep Neural Networks [25.114642281756495]
ウェイト崩壊(Weight decay)は、ディープラーニングにおいて最も広く使われている正規化形式の一つである。
本稿では、勾配勾配勾配は、この目的に対して非効率なアルゴリズムであると主張している。
ReLUアクティベーションを持つニューラルネットワークの場合、重み劣化対象に対する解は異なる目的の解と等価である。
論文 参考訳(メタデータ) (2022-10-06T17:22:40Z) - SGD and Weight Decay Secretly Minimize the Rank of Your Neural Network [8.79431718760617]
ミニバッチSGDとウェイト崩壊によるトレーニングは、ウェイト行列のランク最小化へのバイアスを引き起こす。
このバイアスは、より小さなバッチサイズ、より高い学習率、より強いウェイト崩壊によってより顕著になる。
このバイアスと一般化の関係を実証的に検討し、テスト性能に限界効果があることを見出した。
論文 参考訳(メタデータ) (2022-06-12T17:06:35Z) - Long-Tailed Recognition via Weight Balancing [66.03068252811993]
ナイーブトレーニングは、より高い精度で一般的なクラスに偏ったモデルを生成する。
重みのバランス、L2-正規化、重みの崩壊、MaxNormの3つの手法について検討する。
提案手法は,5つの標準ベンチマークにおける最先端の精度を実現する。
論文 参考訳(メタデータ) (2022-03-27T03:26:31Z) - The Implicit Biases of Stochastic Gradient Descent on Deep Neural
Networks with Batch Normalization [44.30960913470372]
バッチ正規化(BN-DNN)を伴うディープニューラルネットワークは、その正規化操作のために重み付け再スケーリングには不変である。
BN-DNNにおける勾配降下(SGD)の暗黙バイアスについて検討し,重量減衰の有効性に関する理論的説明を行う。
論文 参考訳(メタデータ) (2021-02-06T03:40:20Z) - Improve Generalization and Robustness of Neural Networks via Weight
Scale Shifting Invariant Regularizations [52.493315075385325]
重み劣化を含む正則化器の族は、均質な活性化関数を持つネットワークに対する本質的な重みのノルムをペナルティ化するのに有効でないことを示す。
そこで我々は,ニューラルネットワークの本質的な規範を効果的に制約する改良型正規化器を提案する。
論文 参考訳(メタデータ) (2020-08-07T02:55:28Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - On the Generalization of Stochastic Gradient Descent with Momentum [84.54924994010703]
運動量に基づく勾配降下(SGD)の加速変種は、機械学習モデルを訓練する際に広く用いられる。
まず,標準重球運動量(SGDM)を持つSGDの複数のエポックに対する安定性ギャップが非有界となる凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対しては、修正モーメントベースの更新規則、すなわち、幅広いステップサイズで初期運動量(SGDEM)を解析する。
論文 参考訳(メタデータ) (2018-09-12T17:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。