論文の概要: A Near Complete Nonasymptotic Generalization Theory For Multilayer Neural Networks: Beyond the Bias-Variance Tradeoff
- arxiv url: http://arxiv.org/abs/2503.02129v1
- Date: Mon, 03 Mar 2025 23:34:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:21:17.038274
- Title: A Near Complete Nonasymptotic Generalization Theory For Multilayer Neural Networks: Beyond the Bias-Variance Tradeoff
- Title(参考訳): 多層ニューラルネットワークの非漸近的一般化理論--バイアス-分散トレードオフを超えて-
- Authors: Hao Yu, Xiangyang Ji,
- Abstract要約: 任意のリプシッツ活性化と一般リプシッツ損失関数を持つ多層ニューラルネットワークに対する漸近一般化理論を提案する。
特に、文献でよく見られるように、損失関数の有界性を必要としない。
回帰問題に対する多層ReLUネットワークに対する理論の極小最適性を示す。
- 参考スコア(独自算出の注目度): 57.25901375384457
- License:
- Abstract: We propose a first near complete (that will make explicit sense in the main text) nonasymptotic generalization theory for multilayer neural networks with arbitrary Lipschitz activations and general Lipschitz loss functions (with some very mild conditions). In particular, it doens't require the boundness of loss function, as commonly assumed in the literature. Our theory goes beyond the bias-variance tradeoff, aligned with phenomenon typically encountered in deep learning. It is therefore sharp different with other existing nonasymptotic generalization error bounds for neural networks. More explicitly, we propose an explicit generalization error upper bound for multilayer neural networks with arbitrary Lipschitz activations $\sigma$ with $\sigma(0)=0$ and broad enough Lipschitz loss functions, without requiring either the width, depth or other hyperparameters of the neural network approaching infinity, a specific neural network architect (e.g. sparsity, boundness of some norms), a particular activation function, a particular optimization algorithm or boundness of the loss function, and with taking the approximation error into consideration. General Lipschitz activation can also be accommodated into our framework. A feature of our theory is that it also considers approximation errors. Furthermore, we show the near minimax optimality of our theory for multilayer ReLU networks for regression problems. Notably, our upper bound exhibits the famous double descent phenomenon for such networks, which is the most distinguished characteristic compared with other existing results. This work emphasizes a view that many classical results should be improved to embrace the unintuitive characteristics of deep learning to get a better understanding of it.
- Abstract(参考訳): 任意のリプシッツ活性化と一般リプシッツ損失関数を持つ多層ニューラルネットワークに対する第1次(本文では明確な意味を持つ)漸近一般化理論を提案する。
特に、文献でよく見られるように、損失関数の有界性を必要としない。
我々の理論はバイアス分散トレードオフを超えており、ディープラーニングで通常発生する現象と一致している。
したがって、既存のニューラルネットワークの漸近的一般化誤差境界とは大きく異なる。
より具体的には、任意のリプシッツアクティベートを持つ多層ニューラルネットワークに対する明示的な一般化誤差上限を$\sigma$ with $\sigma(0)=0$および十分に広いリプシッツ損失関数に対して、無限大に近づくニューラルネットワークの幅、深さ、その他のハイパーパラメータを必要とせず、特定のニューラルネットワークアーキテクト(例えば、いくつかのノルムの境界性)、特定のアクティベーション関数、特定の最適化アルゴリズム、損失関数の境界性、および近似誤差を考慮に入れながら提案する。
一般のリプシッツアクティベーションは、私たちのフレームワークにも適用できます。
我々の理論の特徴は近似誤差も考慮していることである。
さらに,回帰問題に対する多層ReLUネットワークに対する理論の最小値に近い最適性を示す。
特に,上界は,これらのネットワークに対して有名な二重降下現象を示しており,他の既存結果と比較して最も顕著な特徴である。
この研究は、多くの古典的な結果が深層学習の直観的な特徴を取り入れて理解を深めるために改善されるべきである、という見解を強調している。
関連論文リスト
- Universal Consistency of Wide and Deep ReLU Neural Networks and Minimax
Optimal Convergence Rates for Kolmogorov-Donoho Optimal Function Classes [7.433327915285969]
我々は,ロジスティック損失に基づいて学習した広帯域および深部ReLUニューラルネットワーク分類器の普遍的整合性を証明する。
また、ニューラルネットワークに基づく分類器が最小収束率を達成できる確率尺度のクラスに対して十分な条件を与える。
論文 参考訳(メタデータ) (2024-01-08T23:54:46Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - On the Omnipresence of Spurious Local Minima in Certain Neural Network
Training Problems [0.0]
本研究では,1次元実出力を持つ深層ニューラルネットワークにおける学習課題の損失状況について検討する。
このような問題は、アフィンでないすべての対象函数に対して、刺激的(すなわち、大域的最適ではない)局所ミニマの連続体を持つことが示されている。
論文 参考訳(メタデータ) (2022-02-23T14:41:54Z) - Non-Vacuous Generalisation Bounds for Shallow Neural Networks [5.799808780731661]
我々は、単一の隠蔽層を持つ特定の種類の浅いニューラルネットワークに焦点を当てる。
我々はPAC-ベイジアン理論を通じて新しい一般化を導出する。
ネットワークがMNISTとFashion-MNISTのバニラ勾配勾配降下で訓練される場合,我々の限界は経験的に非空洞である。
論文 参考訳(メタデータ) (2022-02-03T14:59:51Z) - Predicting Unreliable Predictions by Shattering a Neural Network [145.3823991041987]
線形ニューラルネットワークは、サブファンクションに分割することができる。
サブファンクションは、独自のアクティベーションパターン、ドメイン、経験的エラーを持っている。
完全なネットワークに対する経験的エラーは、サブファンクションに対する期待として記述できる。
論文 参考訳(メタデータ) (2021-06-15T18:34:41Z) - The Many Faces of 1-Lipschitz Neural Networks [1.911678487931003]
1-Lipschitzニューラルネットワークは、古典的なものと同じくらい表現力のある任意の困難なフロンティアに適合できることを示しています。
また,関東ロビッチ・ルビンシュタイン双対性理論の正規化による1-Lipschitzネットワークの分類と最適輸送の関係についても検討した。
論文 参考訳(メタデータ) (2021-04-11T20:31:32Z) - Lipschitz Bounded Equilibrium Networks [3.2872586139884623]
本稿では、平衡ニューラルネットワーク、すなわち暗黙の方程式で定義されるネットワークの新しいパラメータ化を提案する。
新しいパラメータ化は、制約のない最適化を通じてトレーニング中にリプシッツ境界を許容する。
画像分類実験では、リプシッツ境界は非常に正確であり、敵攻撃に対する堅牢性を向上させることが示されている。
論文 参考訳(メタデータ) (2020-10-05T01:00:40Z) - Generalization bound of globally optimal non-convex neural network
training: Transportation map estimation by infinite dimensional Langevin
dynamics [50.83356836818667]
本稿では,ディープラーニングの最適化を一般化誤差と関連づけて解析する理論フレームワークを提案する。
ニューラルネットワーク最適化分析のための平均場理論やニューラル・タンジェント・カーネル理論のような既存のフレームワークは、そのグローバル収束を示すために、ネットワークの無限幅の限界を取る必要がある。
論文 参考訳(メタデータ) (2020-07-11T18:19:50Z) - On Lipschitz Regularization of Convolutional Layers using Toeplitz
Matrix Theory [77.18089185140767]
リプシッツ正則性は現代のディープラーニングの重要な性質として確立されている。
ニューラルネットワークのリプシッツ定数の正確な値を計算することはNPハードであることが知られている。
より厳密で計算が容易な畳み込み層に対する新しい上限を導入する。
論文 参考訳(メタデータ) (2020-06-15T13:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。