論文の概要: Understanding Decoupled and Early Weight Decay
- arxiv url: http://arxiv.org/abs/2012.13841v1
- Date: Sun, 27 Dec 2020 00:59:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-24 20:14:48.795219
- Title: Understanding Decoupled and Early Weight Decay
- Title(参考訳): 疎結合と早期体重減少の理解
- Authors: Johan Bjorck, Kilian Weinberger and Carla Gomes
- Abstract要約: 重量崩壊(WD)は、ディープラーニングの伝統的な正規化技術ですが、その普遍性にもかかわらず、その行動はまだ活発な研究の領域です。
Golatkarなど。
最近、WDはコンピュータビジョンのトレーニングの開始時にのみ重要であることが示されている。
loshchilov et al所属。
適応性では、手動で重みを減衰させると損失に$l$のペナルティが加えられる。
- 参考スコア(独自算出の注目度): 2.5313649220018104
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Weight decay (WD) is a traditional regularization technique in deep learning,
but despite its ubiquity, its behavior is still an area of active research.
Golatkar et al. have recently shown that WD only matters at the start of the
training in computer vision, upending traditional wisdom. Loshchilov et al.
show that for adaptive optimizers, manually decaying weights can outperform
adding an $l_2$ penalty to the loss. This technique has become increasingly
popular and is referred to as decoupled WD. The goal of this paper is to
investigate these two recent empirical observations. We demonstrate that by
applying WD only at the start, the network norm stays small throughout
training. This has a regularizing effect as the effective gradient updates
become larger. However, traditional generalizations metrics fail to capture
this effect of WD, and we show how a simple scale-invariant metric can. We also
show how the growth of network weights is heavily influenced by the dataset and
its generalization properties. For decoupled WD, we perform experiments in NLP
and RL where adaptive optimizers are the norm. We demonstrate that the primary
issue that decoupled WD alleviates is the mixing of gradients from the
objective function and the $l_2$ penalty in the buffers of Adam (which stores
the estimates of the first-order moment). Adaptivity itself is not problematic
and decoupled WD ensures that the gradients from the $l_2$ term cannot "drown
out" the true objective, facilitating easier hyperparameter tuning.
- Abstract(参考訳): 重みの減衰(wd)は、ディープラーニングにおける伝統的な正規化技術であるが、その普遍性にもかかわらず、その振る舞いは依然として活発な研究の領域である。
Golatkarなど。
最近では、WDはコンピュータビジョンのトレーニングの開始時にのみ重要であり、従来の知恵を上回ります。
loshchilov et al所属。
適応オプティマイザの場合、手動で減衰する重みは損失に$l_2$ペナルティを加えるのに優れます。
この技術はますます普及し、疎結合WDと呼ばれている。
本研究の目的は,この2つの最近の経験的観察を調査することである。
我々は、WDを最初からのみ適用することで、トレーニングを通してネットワーク規範が小さく保たれることを示した。
効果的な勾配更新が大きくなるにつれて、これは正規化効果を持つ。
しかし、伝統的な一般化のメトリクスは、wdの効果を捉えられず、単純なスケール不変計量がどのようにできるかを示す。
また,ネットワーク重みの増大はデータセットとその一般化特性に大きく影響していることを示す。
分離WDでは、適応最適化が標準となるNLPとRLで実験を行う。
WD を疎結合にする主な問題は、目的関数からの勾配と、Adam のバッファ内の $l_2$ ペナルティ(第一次モーメントの推定値を保存する)を混合することである。
適応性自体は問題ではなく、分離されたWDは、$l_2$項からの勾配が真の目的を「引き起こせない」ことを保証する。
関連論文リスト
- Decoupled Weight Decay for Any $p$ Norm [1.1510009152620668]
トレーニング中の正規化に$L_p$のブリッジをベースとした,スパーシフィケーションに対する単純かつ効果的なアプローチを検討する。
我々は、標準の$L$重み崩壊を任意の$p$ノルムに一般化する新しい重み崩壊スキームを導入する。
標準的な$L$正規化に匹敵する性能を維持しながら、非常に疎結合なネットワークにつながることを実証的に実証した。
論文 参考訳(メタデータ) (2024-04-16T18:02:15Z) - Asymmetric Momentum: A Rethinking of Gradient Descent [4.1001738811512345]
LCAM(Los-Controlled Asymmetric Momentum)の最も単純なSGD拡張手法を提案する。
損失を平均化することにより、トレーニングプロセスを異なる損失フェーズに分割し、異なる運動量を使用する。
重みが方向特異性を持つことを実験的に検証し、データセットの特異性と相関する。
論文 参考訳(メタデータ) (2023-09-05T11:16:47Z) - Dropout Reduces Underfitting [85.61466286688385]
本研究は,トレーニング開始時の不適合を軽減できることを示す。
ドロップアウトは、ミニバッチ間の勾配の方向性のばらつきを低減し、データセット全体の勾配とミニバッチ勾配の整合を支援する。
この結果から,未適合モデルの性能向上のためのソリューションが得られた – 早期のドロップアウト – トレーニングの初期段階でのみドロップアウトが適用され,その後,オフになります。
論文 参考訳(メタデータ) (2023-03-02T18:59:15Z) - Robust Training of Neural Networks using Scale Invariant Architectures [70.67803417918854]
SGDとは対照的に、Adamのような適応勾配法は、現代のディープネットワークの堅牢なトレーニングを可能にする。
この一般的なアプローチは、パラメータと損失の再スケーリングに頑健であることを示す。
我々は、単にバニラSGDで訓練された場合、Adamのような適応的な手法で訓練されたBERTに匹敵する性能を達成する、SIBERTと呼ばれるスケール不変バージョンのBERTを設計する。
論文 参考訳(メタデータ) (2022-02-02T11:58:56Z) - Correcting Momentum in Temporal Difference Learning [95.62766731469671]
時間差(TD)学習のモーメントは2倍に不安定になる勾配を蓄積すると主張している。
この現象が存在することを示し、その上で運動量に対する一階補正項を提案する。
この研究の重要な洞察は、深いRL法は、常に監督された設定から直接テクニックをインポートすることで最適ではないということである。
論文 参考訳(メタデータ) (2021-06-07T20:41:15Z) - The Implicit Biases of Stochastic Gradient Descent on Deep Neural
Networks with Batch Normalization [44.30960913470372]
バッチ正規化(BN-DNN)を伴うディープニューラルネットワークは、その正規化操作のために重み付け再スケーリングには不変である。
BN-DNNにおける勾配降下(SGD)の暗黙バイアスについて検討し,重量減衰の有効性に関する理論的説明を行う。
論文 参考訳(メタデータ) (2021-02-06T03:40:20Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。