論文の概要: Decoupled Weight Decay for Any $p$ Norm
- arxiv url: http://arxiv.org/abs/2404.10824v2
- Date: Mon, 22 Apr 2024 20:31:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 18:36:58.257459
- Title: Decoupled Weight Decay for Any $p$ Norm
- Title(参考訳): 未成年者の体重減少、ノームで約1300億円
- Authors: Nadav Joseph Outmezguine, Noam Levi,
- Abstract要約: トレーニング中の正規化に$L_p$のブリッジをベースとした,スパーシフィケーションに対する単純かつ効果的なアプローチを検討する。
我々は、標準の$L$重み崩壊を任意の$p$ノルムに一般化する新しい重み崩壊スキームを導入する。
標準的な$L$正規化に匹敵する性能を維持しながら、非常に疎結合なネットワークにつながることを実証的に実証した。
- 参考スコア(独自算出の注目度): 1.1510009152620668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the success of deep neural networks (NNs) in a variety of domains, the computational and storage requirements for training and deploying large NNs have become a bottleneck for further improvements. Sparsification has consequently emerged as a leading approach to tackle these issues. In this work, we consider a simple yet effective approach to sparsification, based on the Bridge, or $L_p$ regularization during training. We introduce a novel weight decay scheme, which generalizes the standard $L_2$ weight decay to any $p$ norm. We show that this scheme is compatible with adaptive optimizers, and avoids the gradient divergence associated with $0<p<1$ norms. We empirically demonstrate that it leads to highly sparse networks, while maintaining generalization performance comparable to standard $L_2$ regularization.
- Abstract(参考訳): さまざまなドメインにおけるディープニューラルネットワーク(NN)の成功により、大規模なNNのトレーニングとデプロイのための計算およびストレージ要件が、さらなる改善のボトルネックになっている。
その結果、これらの問題に対処するための主要なアプローチとしてスパシフィケーションが出現した。
本研究では,ブリッジをベースとしたスペーシフィケーションや,トレーニング中の正規化に対して$L_p$という,シンプルかつ効果的なアプローチを検討する。
我々は、任意の$p$ノルムに対して標準の$L_2$ウェイト崩壊を一般化する新しいウェイト崩壊スキームを導入する。
このスキームは適応オプティマイザと互換性があることを示し、0<p<1$ノルムに付随する勾配のばらつきを回避する。
我々は、標準の$L_2$正規化に匹敵する一般化性能を維持しながら、非常にスパースなネットワークにつながることを実証的に実証した。
関連論文リスト
- Convergence Rate Analysis of LION [54.28350823319057]
LION は、勾配カルシュ=クーン=T (sqrtdK-)$で測定された $cal(sqrtdK-)$ の反復を収束する。
従来のSGDと比較して,LIONは損失が小さく,性能も高いことを示す。
論文 参考訳(メタデータ) (2024-11-12T11:30:53Z) - A Novel Sparse Regularizer [0.0]
本稿では,最適化時にモデルに適用されるエントロピーの新たな尺度を最小化する正規化器を提案する。
微分可能で、単純で高速で計算し、スケール不変であり、簡単な量の追加メモリを必要とし、容易に並列化できる。
論文 参考訳(メタデータ) (2023-01-18T03:17:36Z) - PathProx: A Proximal Gradient Algorithm for Weight Decay Regularized
Deep Neural Networks [25.114642281756495]
ウェイト崩壊(Weight decay)は、ディープラーニングにおいて最も広く使われている正規化形式の一つである。
本稿では、勾配勾配勾配は、この目的に対して非効率なアルゴリズムであると主張している。
ReLUアクティベーションを持つニューラルネットワークの場合、重み劣化対象に対する解は異なる目的の解と等価である。
論文 参考訳(メタデータ) (2022-10-06T17:22:40Z) - Bounding the Width of Neural Networks via Coupled Initialization -- A
Worst Case Analysis [121.9821494461427]
2層ReLUネットワークに必要なニューロン数を著しく削減する方法を示す。
また、事前の作業を改善するための新しい下位境界を証明し、ある仮定の下では、最善を尽くすことができることを証明します。
論文 参考訳(メタデータ) (2022-06-26T06:51:31Z) - Robust Training of Neural Networks using Scale Invariant Architectures [70.67803417918854]
SGDとは対照的に、Adamのような適応勾配法は、現代のディープネットワークの堅牢なトレーニングを可能にする。
この一般的なアプローチは、パラメータと損失の再スケーリングに頑健であることを示す。
我々は、単にバニラSGDで訓練された場合、Adamのような適応的な手法で訓練されたBERTに匹敵する性能を達成する、SIBERTと呼ばれるスケール不変バージョンのBERTを設計する。
論文 参考訳(メタデータ) (2022-02-02T11:58:56Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - An efficient projection neural network for $\ell_1$-regularized logistic
regression [10.517079029721257]
本稿では, $ell_$-regularized logistics regression のための単純な投影ニューラルネットワークを提案する。
提案したニューラルネットワークは、余分な補助変数や滑らかな近似を必要としない。
また、リアプノフ理論を用いて、提案したニューラルネットワークの収束について検討し、任意の初期値を持つ問題の解に収束することを示す。
論文 参考訳(メタデータ) (2021-05-12T06:13:44Z) - Generalized Quantile Loss for Deep Neural Networks [0.8594140167290096]
このノートは、回帰ニューラルネットワークにカウント(または量子化)制約を追加する簡単な方法を示しています。トレーニングセットで$n$サンプルを与えられた場合、$mn$サンプルの予測が実際の値(ラベル)よりも大きいことを保証します。
標準分位レグレッションネットワークとは異なり、提案手法は任意の損失関数に適用できるが、標準分位レグレッション損失は必ずしも適用できず、平均絶対差を最小化することができる。
論文 参考訳(メタデータ) (2020-12-28T16:37:02Z) - Large Norms of CNN Layers Do Not Hurt Adversarial Robustness [11.930096161524407]
畳み込みニューラルネットワーク(CNN)のリプシッツ特性は、敵の強靭性と関連していると考えられている。
本稿では,畳み込み層と完全連結層のノルムを効果的に低減できるノルム崩壊という新しい正規化手法を提案する。
実験により、ノルム崩壊、重み劣化、特異値クリッピングを含むノルム正規化法がCNNの一般化を改善することが示されている。
論文 参考訳(メタデータ) (2020-09-17T17:33:50Z) - Improve Generalization and Robustness of Neural Networks via Weight
Scale Shifting Invariant Regularizations [52.493315075385325]
重み劣化を含む正則化器の族は、均質な活性化関数を持つネットワークに対する本質的な重みのノルムをペナルティ化するのに有効でないことを示す。
そこで我々は,ニューラルネットワークの本質的な規範を効果的に制約する改良型正規化器を提案する。
論文 参考訳(メタデータ) (2020-08-07T02:55:28Z) - Neural Networks are Convex Regularizers: Exact Polynomial-time Convex
Optimization Formulations for Two-layer Networks [70.15611146583068]
我々は、線形整列ユニット(ReLU)を用いた2層ニューラルネットワークのトレーニングの正確な表現を開発する。
我々の理論は半無限双対性と最小ノルム正規化を利用する。
論文 参考訳(メタデータ) (2020-02-24T21:32:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。