論文の概要: Hidden Synergy: $L_1$ Weight Normalization and 1-Path-Norm Regularization
- arxiv url: http://arxiv.org/abs/2404.19112v1
- Date: Mon, 29 Apr 2024 21:25:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 16:03:12.868342
- Title: Hidden Synergy: $L_1$ Weight Normalization and 1-Path-Norm Regularization
- Title(参考訳): Hidden Synergy:$L_1$ Weight Normalization and 1-Path-Norm regularization
- Authors: Aditya Biswas,
- Abstract要約: PSiLON Netの設計が1-path-normを大幅に単純化することを示す。
そこで本研究では,訓練の最終段階において,正確な空間性を実現するためのプルーニング手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present PSiLON Net, an MLP architecture that uses $L_1$ weight normalization for each weight vector and shares the length parameter across the layer. The 1-path-norm provides a bound for the Lipschitz constant of a neural network and reflects on its generalizability, and we show how PSiLON Net's design drastically simplifies the 1-path-norm, while providing an inductive bias towards efficient learning and near-sparse parameters. We propose a pruning method to achieve exact sparsity in the final stages of training, if desired. To exploit the inductive bias of residual networks, we present a simplified residual block, leveraging concatenated ReLU activations. For networks constructed with such blocks, we prove that considering only a subset of possible paths in the 1-path-norm is sufficient to bound the Lipschitz constant. Using the 1-path-norm and this improved bound as regularizers, we conduct experiments in the small data regime using overparameterized PSiLON Nets and PSiLON ResNets, demonstrating reliable optimization and strong performance.
- Abstract(参考訳): PSiLON Netは、重みベクトル毎に$L_1$の重み正規化を使い、各層にまたがる長さパラメータを共有するMLPアーキテクチャである。
1-path-normはニューラルネットワークのリプシッツ定数のバウンダリを提供し、その一般化性を反映し、PSiLON Netの設計が1-path-normを劇的に単純化し、効率的な学習とほぼスパースパラメータへの帰納バイアスを与えることを示す。
そこで本研究では,訓練の最終段階において,所望の精度で正確な間隔を確保できるプルーニング法を提案する。
残差ネットワークの帰納バイアスを生かし, 結合ReLUアクティベーションを利用した簡易な残差ブロックを提案する。
そのようなブロックで構築されたネットワークに対して、1-パスノルムの可能なパスの部分集合のみを考えると、リプシッツ定数をバウンドするのに十分であることを示す。
1-path-normと改良された境界を正規化器として使用し、過パラメータ化されたPSiLONネットとPSiLON ResNetを用いて、信頼性の高い最適化と強力な性能を示す実験を行う。
関連論文リスト
- Decoupled Weight Decay for Any $p$ Norm [1.1510009152620668]
トレーニング中の正規化に$L_p$のブリッジをベースとした,スパーシフィケーションに対する単純かつ効果的なアプローチを検討する。
我々は、標準の$L$重み崩壊を任意の$p$ノルムに一般化する新しい重み崩壊スキームを導入する。
標準的な$L$正規化に匹敵する性能を維持しながら、非常に疎結合なネットワークにつながることを実証的に実証した。
論文 参考訳(メタデータ) (2024-04-16T18:02:15Z) - Improved techniques for deterministic l2 robustness [63.34032156196848]
畳み込みニューラルネットワーク(CNN)を$l_2$ノルムの下で厳密な1-Lipschitz制約で訓練することは、対向的堅牢性、解釈可能な勾配、安定した訓練に有用である。
我々は,最後の線形層を1重層に置き換えることで,1-Lipschitz CNNのロバスト性を証明する手法を提案する。
我々は,CIFAR-10およびCIFAR-100における標準および証明可能な堅牢な精度の最先端化を図る。
論文 参考訳(メタデータ) (2022-11-15T19:10:12Z) - Rethinking Lipschitz Neural Networks for Certified L-infinity Robustness [33.72713778392896]
我々はブール関数を表す新しい視点から、認証された$ell_infty$について研究する。
我々は、先行研究を一般化する統一的なリプシッツネットワークを開発し、効率的に訓練できる実用的なバージョンを設計する。
論文 参考訳(メタデータ) (2022-10-04T17:55:27Z) - The Sample Complexity of One-Hidden-Layer Neural Networks [57.6421258363243]
本研究では,スカラー値を持つ一層ネットワークのクラスとユークリッドノルムで有界な入力について検討する。
隠蔽層重み行列のスペクトルノルムの制御は、一様収束を保証するには不十分であることを示す。
スペクトルノルム制御が十分であることを示す2つの重要な設定を解析する。
論文 参考訳(メタデータ) (2022-02-13T07:12:02Z) - Skew Orthogonal Convolutions [44.053067014796596]
Lipschitzの制約付き畳み込みニューラルネットワークを$l_2$ノルムでトレーニングすることは、証明可能な対逆ロバスト性、解釈可能な勾配、安定したトレーニングなどに有用である。
Methodabvは、従来の作業よりもはるかに高速な大きな畳み込みニューラルネットワークであるLipschitzのトレーニングを可能にする。
論文 参考訳(メタデータ) (2021-05-24T17:11:44Z) - Pruning Redundant Mappings in Transformer Models via Spectral-Normalized
Identity Prior [54.629850694790036]
スペクトル正規化アイデンティティ事前 (SNIP) は、トランスフォーマーモデルにおける残余モジュール全体をアイデンティティマッピングに向けてペナライズする構造化プルーニング手法である。
5つのGLUEベンチマークタスクでBERTを用いて実験を行い、SNIPが同等の性能を維持しながら効率的な刈り取り結果が得られることを示した。
論文 参考訳(メタデータ) (2020-10-05T05:40:56Z) - Improve Generalization and Robustness of Neural Networks via Weight
Scale Shifting Invariant Regularizations [52.493315075385325]
重み劣化を含む正則化器の族は、均質な活性化関数を持つネットワークに対する本質的な重みのノルムをペナルティ化するのに有効でないことを示す。
そこで我々は,ニューラルネットワークの本質的な規範を効果的に制約する改良型正規化器を提案する。
論文 参考訳(メタデータ) (2020-08-07T02:55:28Z) - Learning Sparse Filters in Deep Convolutional Neural Networks with a
l1/l2 Pseudo-Norm [5.3791844634527495]
ディープニューラルネットワーク(DNN)は、多くのタスクで効率的であることが証明されているが、高いメモリと計算コストが伴う。
近年の研究では、それらの構造は性能を損なうことなくよりコンパクトにすることができることが示されている。
フィルタ係数に定義された比 l1/l2 の擬ノルムに基づいて, 疎度誘導正規化項を提案する。
論文 参考訳(メタデータ) (2020-07-20T11:56:12Z) - Efficient Proximal Mapping of the 1-path-norm of Shallow Networks [47.20962674178505]
1-path-norm ニューラルネットワークの2つの重要な特性を示す。
第一に、その非滑らかさと非正確さにもかかわらず、閉じた近位作用素を効率的に計算することができる。
第二に、活性化関数が微分可能であれば、リプシッツ定数の上界を与える。
論文 参考訳(メタデータ) (2020-07-02T10:34:06Z) - On Lipschitz Regularization of Convolutional Layers using Toeplitz
Matrix Theory [77.18089185140767]
リプシッツ正則性は現代のディープラーニングの重要な性質として確立されている。
ニューラルネットワークのリプシッツ定数の正確な値を計算することはNPハードであることが知られている。
より厳密で計算が容易な畳み込み層に対する新しい上限を導入する。
論文 参考訳(メタデータ) (2020-06-15T13:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。