論文の概要: Improve Generalization and Robustness of Neural Networks via Weight
Scale Shifting Invariant Regularizations
- arxiv url: http://arxiv.org/abs/2008.02965v2
- Date: Wed, 8 Jun 2022 14:17:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 00:34:54.057770
- Title: Improve Generalization and Robustness of Neural Networks via Weight
Scale Shifting Invariant Regularizations
- Title(参考訳): 重みスケールシフト不変正則化によるニューラルネットワークの一般化とロバスト性の向上
- Authors: Ziquan Liu, Yufei Cui, Antoni B. Chan
- Abstract要約: 重み劣化を含む正則化器の族は、均質な活性化関数を持つネットワークに対する本質的な重みのノルムをペナルティ化するのに有効でないことを示す。
そこで我々は,ニューラルネットワークの本質的な規範を効果的に制約する改良型正規化器を提案する。
- 参考スコア(独自算出の注目度): 52.493315075385325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Using weight decay to penalize the L2 norms of weights in neural networks has
been a standard training practice to regularize the complexity of networks. In
this paper, we show that a family of regularizers, including weight decay, is
ineffective at penalizing the intrinsic norms of weights for networks with
positively homogeneous activation functions, such as linear, ReLU and
max-pooling functions. As a result of homogeneity, functions specified by the
networks are invariant to the shifting of weight scales between layers. The
ineffective regularizers are sensitive to such shifting and thus poorly
regularize the model capacity, leading to overfitting. To address this
shortcoming, we propose an improved regularizer that is invariant to weight
scale shifting and thus effectively constrains the intrinsic norm of a neural
network. The derived regularizer is an upper bound for the input gradient of
the network so minimizing the improved regularizer also benefits the
adversarial robustness. Residual connections are also considered and we show
that our regularizer also forms an upper bound to input gradients of such a
residual network. We demonstrate the efficacy of our proposed regularizer on
various datasets and neural network architectures at improving generalization
and adversarial robustness.
- Abstract(参考訳): ニューラルネットワークにおける重みのl2ノルムをペナライズするために重みの減衰を利用することは、ネットワークの複雑さを定式化する標準的なトレーニングプラクティスである。
本稿では,線形,ReLU,最大プーリング関数などの正の等質な活性化関数を持つネットワークに対して,重み付けの固有ノルムをペナライズするには,重み付けを含む正規化器群が有効でないことを示す。
均質性の結果、ネットワークによって指定された関数は、層間の重みスケールのシフトに不変である。
非効率な正則化器はそのようなシフトに敏感であり、したがってモデルの容量を不規則にし、過度に適合する。
この欠点に対処するために,重み付きスケールシフトに不変であり,ニューラルネットワークの固有ノルムを効果的に制約する改良正規化器を提案する。
導出正規化器は、ネットワークの入力勾配の上限であり、改良された正規化器の最小化は、対向ロバスト性にも寄与する。
残差接続も考慮し、正規化器がそのような残差ネットワークの入力勾配に上界を形成することを示す。
提案する正則化器を各種データセットやニューラルネットワークアーキテクチャに適用し,一般化と対向ロバスト性の向上に有効であることを示す。
関連論文リスト
- Generalization of Scaled Deep ResNets in the Mean-Field Regime [55.77054255101667]
無限深度および広帯域ニューラルネットワークの限界におけるエンスケールResNetについて検討する。
この結果から,遅延学習体制を超えた深層ResNetの一般化能力に関する新たな知見が得られた。
論文 参考訳(メタデータ) (2024-03-14T21:48:00Z) - The Sample Complexity of One-Hidden-Layer Neural Networks [57.6421258363243]
本研究では,スカラー値を持つ一層ネットワークのクラスとユークリッドノルムで有界な入力について検討する。
隠蔽層重み行列のスペクトルノルムの制御は、一様収束を保証するには不十分であることを示す。
スペクトルノルム制御が十分であることを示す2つの重要な設定を解析する。
論文 参考訳(メタデータ) (2022-02-13T07:12:02Z) - Logit Attenuating Weight Normalization [5.856897366207895]
勾配に基づく一般化を用いて訓練されたディープネットワークは、分類とランキング問題を解決するのに一般的な選択肢である。
適切に調整された$ell$正規化やウェイト崩壊がなければ、そのようなネットワークは出力スコア(論理)とネットワークウェイトを大きくする傾向にある。
そこで我々は,任意の勾配に基づく一般化に積み重ねることができる測位ウェイト正規化法 (LAWN) を提案する。
論文 参考訳(メタデータ) (2021-08-12T16:44:24Z) - Better Training using Weight-Constrained Stochastic Dynamics [0.0]
我々は、トレーニングを通してディープニューラルネットワークのパラメータ空間を制御するために制約を用いる。
カスタマイズされた適切な設計の制約を使用することで、消滅/展開の問題を減らすことができる。
グラデーションランゲヴィンフレームワークに制約を効率的に組み込むための一般的なアプローチを提供する。
論文 参考訳(メタデータ) (2021-06-20T14:41:06Z) - Rethinking Skip Connection with Layer Normalization in Transformers and
ResNets [49.87919454950763]
スキップ接続は、ディープニューラルネットワークの性能を改善するために広く使われているテクニックである。
本研究では,スキップ接続の有効性におけるスケール要因について検討する。
論文 参考訳(メタデータ) (2021-05-15T11:44:49Z) - The Implicit Biases of Stochastic Gradient Descent on Deep Neural
Networks with Batch Normalization [44.30960913470372]
バッチ正規化(BN-DNN)を伴うディープニューラルネットワークは、その正規化操作のために重み付け再スケーリングには不変である。
BN-DNNにおける勾配降下(SGD)の暗黙バイアスについて検討し,重量減衰の有効性に関する理論的説明を行う。
論文 参考訳(メタデータ) (2021-02-06T03:40:20Z) - A Fully Tensorized Recurrent Neural Network [48.50376453324581]
重み付けされたRNNアーキテクチャを導入し、各リカレントセル内の個別の重み付け行列を共同で符号化する。
このアプローチはモデルのサイズを数桁削減するが、通常のRNNと同等あるいは優れた性能を維持している。
論文 参考訳(メタデータ) (2020-10-08T18:24:12Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。