論文の概要: PathProx: A Proximal Gradient Algorithm for Weight Decay Regularized
Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2210.03069v3
- Date: Mon, 26 Jun 2023 02:54:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 00:36:38.641972
- Title: PathProx: A Proximal Gradient Algorithm for Weight Decay Regularized
Deep Neural Networks
- Title(参考訳): PathProx: 重み付き正規化ディープニューラルネットワークのための近似勾配アルゴリズム
- Authors: Liu Yang, Jifan Zhang, Joseph Shenouda, Dimitris Papailiopoulos,
Kangwook Lee, Robert D. Nowak
- Abstract要約: ウェイト崩壊(Weight decay)は、ディープラーニングにおいて最も広く使われている正規化形式の一つである。
本稿では、勾配勾配勾配は、この目的に対して非効率なアルゴリズムであると主張している。
ReLUアクティベーションを持つニューラルネットワークの場合、重み劣化対象に対する解は異なる目的の解と等価である。
- 参考スコア(独自算出の注目度): 25.114642281756495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weight decay is one of the most widely used forms of regularization in deep
learning, and has been shown to improve generalization and robustness. The
optimization objective driving weight decay is a sum of losses plus a term
proportional to the sum of squared weights. This paper argues that stochastic
gradient descent (SGD) may be an inefficient algorithm for this objective. For
neural networks with ReLU activations, solutions to the weight decay objective
are equivalent to those of a different objective in which the regularization
term is instead a sum of products of $\ell_2$ (not squared) norms of the input
and output weights associated with each ReLU neuron. This alternative (and
effectively equivalent) regularization suggests a novel proximal gradient
algorithm for network training. Theory and experiments support the new training
approach, showing that it can converge much faster to the sparse solutions it
shares with standard weight decay training.
- Abstract(参考訳): 重みの減衰はディープラーニングにおいて最も広く使われる正規化の1つであり、一般化と堅牢性を改善することが示されている。
重量減衰の最適化対象は損失の和であり、二乗重みの和に比例する項である。
本稿では,確率勾配降下 (SGD) はこの目的に対して非効率なアルゴリズムであると主張している。
ReLUアクティベーションを持つニューラルネットワークの場合、重み劣化対象の解は異なる目的の解と等価であり、正規化項は、それぞれのReLUニューロンに関連する入力および出力重みのノルム$\ell_2$(正方でない)の積の和である。
この代替的(かつ効果的に等価な)正則化は、ネットワークトレーニングのための新しい近位勾配アルゴリズムを示唆する。
理論と実験は新しいトレーニング手法を支持し、標準の重量減衰トレーニングと共有するスパース解にはるかに早く収束できることを示した。
関連論文リスト
- Optimization and Generalization Guarantees for Weight Normalization [19.965963460750206]
我々は、Deep WeightNormモデルの最適化と一般化の双方について、最初の理論的特徴付けを提供する。
本稿では,WeightNormネットワークのトレーニングに正規化項などの理論的関心が関係していることを示す実験結果を示す。
論文 参考訳(メタデータ) (2024-09-13T15:55:05Z) - Decoupled Weight Decay for Any $p$ Norm [1.1510009152620668]
トレーニング中の正規化に$L_p$のブリッジをベースとした,スパーシフィケーションに対する単純かつ効果的なアプローチを検討する。
我々は、標準の$L$重み崩壊を任意の$p$ノルムに一般化する新しい重み崩壊スキームを導入する。
標準的な$L$正規化に匹敵する性能を維持しながら、非常に疎結合なネットワークにつながることを実証的に実証した。
論文 参考訳(メタデータ) (2024-04-16T18:02:15Z) - FedNAR: Federated Optimization with Normalized Annealing Regularization [54.42032094044368]
ウェイト崩壊の選択を探索し、ウェイト崩壊値が既存のFLアルゴリズムの収束に有意な影響を及ぼすことを確かめる。
我々は,既存のFLアルゴリズムにシームレスに統合可能なプラグインであるFederated Optimization with Normalized Annealing Regularization (FedNAR)を開発した。
論文 参考訳(メタデータ) (2023-10-04T21:11:40Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - The Implicit Biases of Stochastic Gradient Descent on Deep Neural
Networks with Batch Normalization [44.30960913470372]
バッチ正規化(BN-DNN)を伴うディープニューラルネットワークは、その正規化操作のために重み付け再スケーリングには不変である。
BN-DNNにおける勾配降下(SGD)の暗黙バイアスについて検討し,重量減衰の有効性に関する理論的説明を行う。
論文 参考訳(メタデータ) (2021-02-06T03:40:20Z) - On the Overlooked Pitfalls of Weight Decay and How to Mitigate Them: A Gradient-Norm Perspective [90.39123717733334]
そこで本研究では,Shduled Weight Decay (SWD) 法と呼ばれる,減量のための最初の実用的なスケジューラを提案する。
我々の実験は、SWDが実際に大きな勾配ノルムを緩和し、適応モーメント推定(Adam)の従来の定重崩壊戦略を著しく上回っていることも裏付けている。
論文 参考訳(メタデータ) (2020-11-23T00:39:49Z) - Neural networks with late-phase weights [66.72777753269658]
学習後期に重みのサブセットを組み込むことで,SGDの解をさらに改善できることを示す。
学習の終わりに、重み空間における空間平均を取ることにより、1つのモデルを取得する。
論文 参考訳(メタデータ) (2020-07-25T13:23:37Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。