論文の概要: Generalization of Scaled Deep ResNets in the Mean-Field Regime
- arxiv url: http://arxiv.org/abs/2403.09889v1
- Date: Thu, 14 Mar 2024 21:48:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 21:05:51.159734
- Title: Generalization of Scaled Deep ResNets in the Mean-Field Regime
- Title(参考訳): 平均フィールドレジームにおけるスケールドディープResNetの一般化
- Authors: Yihang Chen, Fanghui Liu, Yiping Lu, Grigorios G. Chrysos, Volkan Cevher,
- Abstract要約: 無限深度および広帯域ニューラルネットワークの限界におけるエンスケールResNetについて検討する。
この結果から,遅延学習体制を超えた深層ResNetの一般化能力に関する新たな知見が得られた。
- 参考スコア(独自算出の注目度): 55.77054255101667
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the widespread empirical success of ResNet, the generalization properties of deep ResNet are rarely explored beyond the lazy training regime. In this work, we investigate \emph{scaled} ResNet in the limit of infinitely deep and wide neural networks, of which the gradient flow is described by a partial differential equation in the large-neural network limit, i.e., the \emph{mean-field} regime. To derive the generalization bounds under this setting, our analysis necessitates a shift from the conventional time-invariant Gram matrix employed in the lazy training regime to a time-variant, distribution-dependent version. To this end, we provide a global lower bound on the minimum eigenvalue of the Gram matrix under the mean-field regime. Besides, for the traceability of the dynamic of Kullback-Leibler (KL) divergence, we establish the linear convergence of the empirical error and estimate the upper bound of the KL divergence over parameters distribution. Finally, we build the uniform convergence for generalization bound via Rademacher complexity. Our results offer new insights into the generalization ability of deep ResNet beyond the lazy training regime and contribute to advancing the understanding of the fundamental properties of deep neural networks.
- Abstract(参考訳): ResNetの広範な実証的な成功にもかかわらず、Deep ResNetの一般化特性は遅延トレーニング体制を超えて調査されることはめったにない。
本研究では,大脳神経回路系における勾配流を偏微分方程式,すなわち,大脳神経回路系における偏微分方程式により記述する,無限深度および広視野ニューラルネットワークの極限における「emph{scaled} ResNet」について検討する。
この条件下での一般化境界を導出するには、遅延学習方式で用いられる従来の時変グラム行列から時変分布依存型への移行が必要である。
この目的のために、平均場状態の下では、グラム行列の最小固有値に対する大域的下界を与える。
さらに、クルバック・リーブラー(KL)の発散のトレーサビリティについて、経験的誤差の線形収束を確立し、パラメータ分布上のKL発散の上限を推定する。
最後に、Rademacher複雑性を介して有界な一般化のための一様収束を構築する。
この結果から,遅延学習体制を超えたディープResNetの一般化能力に関する新たな知見が得られ,ディープニューラルネットワークの基本的特性の理解の促進に寄与する。
関連論文リスト
- An Infinite-Width Analysis on the Jacobian-Regularised Training of a Neural Network [10.384951432591492]
深部ニューラルネットワークの無限幅限界における最近の理論的分析により、ネットワークの初期化、特徴学習、トレーニングに対する理解が深まりました。
この無限幅解析は、ディープニューラルネットワークのヤコビアンにまで拡張可能であることを示す。
我々は、広い有限ネットワークに対する理論的主張の関連性を実験的に示し、核回帰解の性質を実験的に解析し、ヤコビアン正則化の洞察を得る。
論文 参考訳(メタデータ) (2023-12-06T09:52:18Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Generalization Error Bounds for Deep Neural Networks Trained by SGD [3.148524502470734]
勾配降下(SGD)により訓練された深度に対する一般化誤差境界を導出する。
境界は、トレーニング軌跡に沿った損失に明示的に依存する。
その結果、ニューラルネットワークとネットワークハイパースの変化により、境界は非空洞で堅牢であることが判明した。
論文 参考訳(メタデータ) (2022-06-07T13:46:10Z) - On generalization bounds for deep networks based on loss surface
implicit regularization [5.68558935178946]
現代のディープニューラルネットワークは、多くのパラメータにもかかわらずよく一般化されている。
現在のディープニューラルネットワークは、多くのパラメータが古典的な統計的学習理論と矛盾するにもかかわらず、よく一般化されている。
論文 参考訳(メタデータ) (2022-01-12T16:41:34Z) - Global convergence of ResNets: From finite to infinite width using
linear parameterization [0.0]
残差ブロックが非線形でありながら線形パラメトリゼーションを有する残差ネットワーク(Residual Networks, ResNets)について検討する。
この極限において、局所的なポリアック・ロジャシエヴィチの不等式を証明し、遅延状態を取得する。
私たちの分析は実用的で定量化されたレシピにつながります。
論文 参考訳(メタデータ) (2021-12-10T13:38:08Z) - Path Regularization: A Convexity and Sparsity Inducing Regularization
for Parallel ReLU Networks [75.33431791218302]
本稿では,ディープニューラルネットワークのトレーニング問題について検討し,最適化環境に隠された凸性を明らかにするための解析的アプローチを提案する。
我々は、標準のディープ・ネットワークとResNetを特別なケースとして含む、ディープ・パラレルなReLUネットワークアーキテクチャについて検討する。
論文 参考訳(メタデータ) (2021-10-18T18:00:36Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - Improve Generalization and Robustness of Neural Networks via Weight
Scale Shifting Invariant Regularizations [52.493315075385325]
重み劣化を含む正則化器の族は、均質な活性化関数を持つネットワークに対する本質的な重みのノルムをペナルティ化するのに有効でないことを示す。
そこで我々は,ニューラルネットワークの本質的な規範を効果的に制約する改良型正規化器を提案する。
論文 参考訳(メタデータ) (2020-08-07T02:55:28Z) - Generalization bound of globally optimal non-convex neural network
training: Transportation map estimation by infinite dimensional Langevin
dynamics [50.83356836818667]
本稿では,ディープラーニングの最適化を一般化誤差と関連づけて解析する理論フレームワークを提案する。
ニューラルネットワーク最適化分析のための平均場理論やニューラル・タンジェント・カーネル理論のような既存のフレームワークは、そのグローバル収束を示すために、ネットワークの無限幅の限界を取る必要がある。
論文 参考訳(メタデータ) (2020-07-11T18:19:50Z) - A Mean-field Analysis of Deep ResNet and Beyond: Towards Provable
Optimization Via Overparameterization From Depth [19.866928507243617]
勾配降下(SGD)を伴う深層ニューラルネットワークのトレーニングは、現実世界の風景でのトレーニング損失をゼロにすることが多い。
我々は,アラーがグローバルであるという意味で優れたトレーニングを享受する,無限大深部残差ネットワークの新たな限界を提案する。
論文 参考訳(メタデータ) (2020-03-11T20:14:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。