論文の概要: The Hidden Power of Normalization: Exponential Capacity Control in Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2511.00958v1
- Date: Sun, 02 Nov 2025 14:38:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.005969
- Title: The Hidden Power of Normalization: Exponential Capacity Control in Deep Neural Networks
- Title(参考訳): 正規化の隠れ力:ディープニューラルネットワークにおける指数容量制御
- Authors: Khoat Than,
- Abstract要約: 我々はキャパシティ制御のレンズを通して正規化の役割を解明する理論的枠組みを開発する。
非正規化 DNN が指数関数的に大きなリプシッツ定数を示すことを証明する。
対照的に、正規化層の挿入は、正規化演算数の指数速度でリプシッツ定数を確実に減少させることができる。
- 参考スコア(独自算出の注目度): 3.2356128177594363
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Normalization methods are fundamental components of modern deep neural networks (DNNs). Empirically, they are known to stabilize optimization dynamics and improve generalization. However, the underlying theoretical mechanism by which normalization contributes to both optimization and generalization remains largely unexplained, especially when using many normalization layers in a DNN architecture. In this work, we develop a theoretical framework that elucidates the role of normalization through the lens of capacity control. We prove that an unnormalized DNN can exhibit exponentially large Lipschitz constants with respect to either its parameters or inputs, implying excessive functional capacity and potential overfitting. Such bad DNNs are uncountably many. In contrast, the insertion of normalization layers provably can reduce the Lipschitz constant at an exponential rate in the number of normalization operations. This exponential reduction yields two fundamental consequences: (1) it smooths the loss landscape at an exponential rate, facilitating faster and more stable optimization; and (2) it constrains the effective capacity of the network, thereby enhancing generalization guarantees on unseen data. Our results thus offer a principled explanation for the empirical success of normalization methods in deep learning.
- Abstract(参考訳): 正規化手法は、現代のディープニューラルネットワーク(DNN)の基本コンポーネントである。
経験的には、最適化のダイナミクスを安定化し、一般化を改善することが知られている。
しかし、正規化が最適化と一般化の両方に寄与する基礎となる理論メカニズムは、特にDNNアーキテクチャにおいて多くの正規化層を使用する場合、ほとんど説明がつかないままである。
本研究では,キャパシティ制御のレンズを通して正規化の役割を解明する理論的枠組みを開発する。
非正規化されたDNNは、パラメータや入力に関して指数関数的に大きなリプシッツ定数を示し、過剰な機能能力と潜在的な過剰適合を示唆する。
このような悪いDNNは数えきれないほど多い。
対照的に、正規化層の挿入は、正規化演算数の指数速度でリプシッツ定数を確実に減少させることができる。
この指数減少は、(1)指数速度で損失景観を滑らかにし、より高速で安定した最適化を容易にし、(2)ネットワークの有効容量を制限し、未知のデータに対する一般化保証を強化するという2つの基本的な結果をもたらす。
この結果から,ディープラーニングにおける正規化手法の実証的成功の原理的説明が得られた。
関連論文リスト
- Precise gradient descent training dynamics for finite-width multi-layer neural networks [8.057006406834466]
一般多層ニューラルネットワークにおける勾配降下繰り返しの正確な分布解析を行った。
我々の非漸近状態進化理論は、第一層重みのガウス的ゆらぎと深層重みの集中を捉えている。
論文 参考訳(メタデータ) (2025-05-08T02:19:39Z) - A Near Complete Nonasymptotic Generalization Theory For Multilayer Neural Networks: Beyond the Bias-Variance Tradeoff [57.25901375384457]
任意のリプシッツ活性化と一般リプシッツ損失関数を持つ多層ニューラルネットワークに対する漸近一般化理論を提案する。
特に、文献でよく見られるように、損失関数の有界性を必要としない。
回帰問題に対する多層ReLUネットワークに対する理論の極小最適性を示す。
論文 参考訳(メタデータ) (2025-03-03T23:34:12Z) - Improving the Expressive Power of Deep Neural Networks through Integral
Activation Transform [12.36064367319084]
従来の完全接続型ディープニューラルネットワーク(DNN)を連続幅の概念により一般化する。
IAT-ReLUは連続基底関数を用いる場合に連続的な活性化パターンを示す。
数値実験により,IAT-ReLUはトレーニング性やスムーズさの点で,通常のReLUよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-12-19T20:23:33Z) - The Inductive Bias of Flatness Regularization for Deep Matrix
Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。
測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文 参考訳(メタデータ) (2023-06-22T23:14:57Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Understanding the Generalization Benefit of Normalization Layers:
Sharpness Reduction [36.83448475700536]
正規化層(例えば、バッチ正規化、レイヤ正規化)は、非常に深い網における最適化の難しさを支援するために導入された。
本稿では,正規化が損失面のシャープネスを低減するためにGDを促進することを示唆する数学的解析と実験を行う。
論文 参考訳(メタデータ) (2022-06-14T18:19:05Z) - Optimization Theory for ReLU Neural Networks Trained with Normalization
Layers [82.61117235807606]
ディープニューラルネットワークの成功は、部分的には正規化レイヤの使用によるものだ。
我々の分析は、正規化の導入がランドスケープをどのように変化させ、より高速なアクティベーションを実現するかを示している。
論文 参考訳(メタデータ) (2020-06-11T23:55:54Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。