論文の概要: Logit Attenuating Weight Normalization
- arxiv url: http://arxiv.org/abs/2108.05839v1
- Date: Thu, 12 Aug 2021 16:44:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-13 18:12:02.391962
- Title: Logit Attenuating Weight Normalization
- Title(参考訳): Logit Attenuating Weight Normalization
- Authors: Aman Gupta, Rohan Ramanath, Jun Shi, Anika Ramachandran, Sirou Zhou,
Mingzhou Zhou, S. Sathiya Keerthi
- Abstract要約: 勾配に基づく一般化を用いて訓練されたディープネットワークは、分類とランキング問題を解決するのに一般的な選択肢である。
適切に調整された$ell$正規化やウェイト崩壊がなければ、そのようなネットワークは出力スコア(論理)とネットワークウェイトを大きくする傾向にある。
そこで我々は,任意の勾配に基づく一般化に積み重ねることができる測位ウェイト正規化法 (LAWN) を提案する。
- 参考スコア(独自算出の注目度): 5.856897366207895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over-parameterized deep networks trained using gradient-based optimizers are
a popular choice for solving classification and ranking problems. Without
appropriately tuned $\ell_2$ regularization or weight decay, such networks have
the tendency to make output scores (logits) and network weights large, causing
training loss to become too small and the network to lose its adaptivity
(ability to move around) in the parameter space. Although regularization is
typically understood from an overfitting perspective, we highlight its role in
making the network more adaptive and enabling it to escape more easily from
weights that generalize poorly. To provide such a capability, we propose a
method called Logit Attenuating Weight Normalization (LAWN), that can be
stacked onto any gradient-based optimizer. LAWN controls the logits by
constraining the weight norms of layers in the final homogeneous sub-network.
Empirically, we show that the resulting LAWN variant of the optimizer makes a
deep network more adaptive to finding minimas with superior generalization
performance on large-scale image classification and recommender systems. While
LAWN is particularly impressive in improving Adam, it greatly improves all
optimizers when used with large batch sizes
- Abstract(参考訳): 勾配に基づくオプティマイザを用いてトレーニングされた過度パラメータ付きディープネットワークは、分類とランキングの問題を解決するための一般的な選択肢である。
適切に調整された$\ell_2$正規化や重量減少がなければ、そのようなネットワークは出力スコア(ログ)とネットワーク重みを大きくする傾向があり、トレーニング損失が小さくなり、ネットワークはパラメータ空間での適応性(移動能力)を失う。
正規化は一般的に過度に適合する観点から理解されるが、ネットワークをより適応させ、一般化の悪い重みからより簡単に逃れる役割を強調する。
そのような機能を実現するため,任意の勾配に基づく最適化器に積み重ねることができるLogit Attenuating Weight Normalization (LAWN) という手法を提案する。
LAWNは最終均質サブネットワークにおける層の重みノルムを制限してロジットを制御する。
実験により,最適化器のLAWN変異は,大規模画像分類およびレコメンダシステムにおいて,より優れた一般化性能を持つミニマの発見に適応できることを示す。
LAWNはAdamの改善に特に優れていますが、大きなバッチサイズで使用する場合、すべてのオプティマイザを大幅に改善します。
関連論文リスト
- FedNAR: Federated Optimization with Normalized Annealing Regularization [54.42032094044368]
ウェイト崩壊の選択を探索し、ウェイト崩壊値が既存のFLアルゴリズムの収束に有意な影響を及ぼすことを確かめる。
我々は,既存のFLアルゴリズムにシームレスに統合可能なプラグインであるFederated Optimization with Normalized Annealing Regularization (FedNAR)を開発した。
論文 参考訳(メタデータ) (2023-10-04T21:11:40Z) - Weight Compander: A Simple Weight Reparameterization for Regularization [5.744133015573047]
我々は、ディープニューラルネットワークの一般化を改善するための新しい効果的な方法であるウェイトコンパンダを導入する。
標準正規化法に加えて重みコンパンダを用いることで,ニューラルネットワークの性能が向上することを示す。
論文 参考訳(メタデータ) (2023-06-29T14:52:04Z) - Combining Explicit and Implicit Regularization for Efficient Learning in
Deep Networks [3.04585143845864]
深い線形ネットワークでは、勾配勾配は行列の完備化/ファクトリゼーションタスクの低ランク解に対して暗黙的に正規化される。
適応勾配の一般化にのみ作用するこの暗黙バイアスを反映した明示的なペナルティを提案する。
この組み合わせにより、単層ネットワークは、深い線形ネットワークに匹敵する縮退誤差で低ランク近似を達成できる。
論文 参考訳(メタデータ) (2023-06-01T04:47:17Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - Adaptive Low-Rank Regularization with Damping Sequences to Restrict Lazy
Weights in Deep Networks [13.122543280692641]
本稿では,過適合の原因となる重み付け層のサブセットを検出し,重み付けは行列およびテンソル条件数によって認識する。
重み付け層のサブセットを低ランク因子化(LRF)に収束させる適応型低ランク法(ALR)を提案する。
実験の結果、ALRは訓練速度とリソース使用量の少ない深層ネットワークをよく正規化していることがわかった。
論文 参考訳(メタデータ) (2021-06-17T17:28:14Z) - Rethinking Skip Connection with Layer Normalization in Transformers and
ResNets [49.87919454950763]
スキップ接続は、ディープニューラルネットワークの性能を改善するために広く使われているテクニックである。
本研究では,スキップ接続の有効性におけるスケール要因について検討する。
論文 参考訳(メタデータ) (2021-05-15T11:44:49Z) - Layer-adaptive sparsity for the Magnitude-based Pruning [88.37510230946478]
本稿では,LAMP(Layer-Adaptive magnitude-based pruning)スコアを用いたグローバルプルーニングの新たな重要点を提案する。
LAMPは、階層的な空間選択のための一般的なスキームを一貫して上回っている。
論文 参考訳(メタデータ) (2020-10-15T09:14:02Z) - Improve Generalization and Robustness of Neural Networks via Weight
Scale Shifting Invariant Regularizations [52.493315075385325]
重み劣化を含む正則化器の族は、均質な活性化関数を持つネットワークに対する本質的な重みのノルムをペナルティ化するのに有効でないことを示す。
そこで我々は,ニューラルネットワークの本質的な規範を効果的に制約する改良型正規化器を提案する。
論文 参考訳(メタデータ) (2020-08-07T02:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。