論文の概要: Optimization and Generalization Guarantees for Weight Normalization
- arxiv url: http://arxiv.org/abs/2409.08935v2
- Date: Mon, 20 Jan 2025 18:07:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:17:25.142562
- Title: Optimization and Generalization Guarantees for Weight Normalization
- Title(参考訳): 軽量正規化のための最適化と一般化保証
- Authors: Pedro Cisneros-Velarde, Zhijie Chen, Sanmi Koyejo, Arindam Banerjee,
- Abstract要約: 我々は、Deep WeightNormモデルの最適化と一般化の双方について、最初の理論的特徴付けを提供する。
本稿では,WeightNormネットワークのトレーニングに正規化項などの理論的関心が関係していることを示す実験結果を示す。
- 参考スコア(独自算出の注目度): 19.965963460750206
- License:
- Abstract: Weight normalization (WeightNorm) is widely used in practice for the training of deep neural networks and modern deep learning libraries have built-in implementations of it. In this paper, we provide the first theoretical characterizations of both optimization and generalization of deep WeightNorm models with smooth activation functions. For optimization, from the form of the Hessian of the loss, we note that a small Hessian of the predictor leads to a tractable analysis. Thus, we bound the spectral norm of the Hessian of WeightNorm networks and show its dependence on the network width and weight normalization terms--the latter being unique to networks without WeightNorm. Then, we use this bound to establish training convergence guarantees under suitable assumptions for gradient decent. For generalization, we use WeightNorm to get a uniform convergence based generalization bound, which is independent from the width and depends sublinearly on the depth. Finally, we present experimental results which illustrate how the normalization terms and other quantities of theoretical interest relate to the training of WeightNorm networks.
- Abstract(参考訳): 重みの正規化(Weight Norm)は、ディープニューラルネットワークのトレーニングに広く使われており、現代のディープラーニングライブラリはその実装に組み込まれている。
本稿では、スムーズなアクティベーション関数を持つディープウェイトノームモデルの最適化と一般化の両立を初めて理論的に評価する。
最適化のために、損失の Hessian の形式から、予測子の小さな Hessian がトラクタブルな解析につながることに注意する。
したがって、WeightNorm ネットワークの Hessian のスペクトルノルムを束縛し、そのネットワーク幅と重み正規化項への依存性を示す。
次に、この境界を用いて、勾配が適切であるような適切な仮定の下で、トレーニング収束保証を確立する。
一般化するために、WeightNorm を用いて一様収束に基づく一般化境界を得る。
最後に、WeightNormネットワークのトレーニングに正規化項やその他の理論的関心の量がどのように関係しているかを示す実験結果を示す。
関連論文リスト
- Weight Conditioning for Smooth Optimization of Neural Networks [28.243353447978837]
本稿では,ニューラルネットワークの重み行列に対する新しい正規化手法を提案する。
このアプローチは、ウェイト行列の最小値と最大の特異値の間のギャップを狭くすることを目的としており、より良い条件付き行列をもたらす。
以上の結果から,本手法は競争力だけでなく,文献の既往の重み正規化手法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-09-05T11:10:34Z) - Generalization of Scaled Deep ResNets in the Mean-Field Regime [55.77054255101667]
無限深度および広帯域ニューラルネットワークの限界におけるエンスケールResNetについて検討する。
この結果から,遅延学習体制を超えた深層ResNetの一般化能力に関する新たな知見が得られた。
論文 参考訳(メタデータ) (2024-03-14T21:48:00Z) - Convergence Analysis for Learning Orthonormal Deep Linear Neural
Networks [27.29463801531576]
本稿では,正規直交深部線形ニューラルネットワークの学習のための収束解析について述べる。
その結果、隠れた層の増加が収束速度にどのように影響するかが明らかになった。
論文 参考訳(メタデータ) (2023-11-24T18:46:54Z) - Robust Implicit Regularization via Weight Normalization [5.37610807422229]
重み正規化は、重みが実質的に大規模であっても持続する頑健なバイアスを可能にすることを示す。
実験により, 暗黙バイアスの収束速度とロバスト性の両方の利得は, 重み正規化を用いて劇的に改善されることが示唆された。
論文 参考訳(メタデータ) (2023-05-09T13:38:55Z) - Heavy-Tailed Regularization of Weight Matrices in Deep Neural Networks [8.30897399932868]
鍵となる発見は、ニューラルネットワークの一般化性能が、その重み行列のスペクトルにおける重みの程度と関連していることを示している。
重み付き正則化と呼ばれる新しい正則化手法を導入し、正則化により重み付きスペクトルを明示的に促進する。
重み付き正規化が一般化性能の点で従来の正規化技術より優れていることを実証的に示す。
論文 参考訳(メタデータ) (2023-04-06T07:50:14Z) - Explicit regularization and implicit bias in deep network classifiers
trained with the square loss [2.8935588665357077]
平方損失で訓練された深いReLUネットワークは分類の仕事でよく機能するために観察されました。
正規化法を重み決定法とともに用いる場合,絶対最小ノルムの解への収束が期待できることを示す。
論文 参考訳(メタデータ) (2020-12-31T21:07:56Z) - Improve Generalization and Robustness of Neural Networks via Weight
Scale Shifting Invariant Regularizations [52.493315075385325]
重み劣化を含む正則化器の族は、均質な活性化関数を持つネットワークに対する本質的な重みのノルムをペナルティ化するのに有効でないことを示す。
そこで我々は,ニューラルネットワークの本質的な規範を効果的に制約する改良型正規化器を提案する。
論文 参考訳(メタデータ) (2020-08-07T02:55:28Z) - Optimization Theory for ReLU Neural Networks Trained with Normalization
Layers [82.61117235807606]
ディープニューラルネットワークの成功は、部分的には正規化レイヤの使用によるものだ。
我々の分析は、正規化の導入がランドスケープをどのように変化させ、より高速なアクティベーションを実現するかを示している。
論文 参考訳(メタデータ) (2020-06-11T23:55:54Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - Distance-Based Regularisation of Deep Networks for Fine-Tuning [116.71288796019809]
我々は,仮説クラスを,初期訓練前の重みを中心にした小さな球面に制約するアルゴリズムを開発した。
実験的な評価は、我々のアルゴリズムがうまく機能していることを示し、理論的な結果を裏付けるものである。
論文 参考訳(メタデータ) (2020-02-19T16:00:47Z) - Understanding Generalization in Deep Learning via Tensor Methods [53.808840694241]
圧縮の観点から,ネットワークアーキテクチャと一般化可能性の関係について理解を深める。
本稿では、ニューラルネットワークの圧縮性と一般化性を強く特徴付ける、直感的で、データ依存的で、測定が容易な一連の特性を提案する。
論文 参考訳(メタデータ) (2020-01-14T22:26:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。