論文の概要: A Functional-Space Mean-Field Theory of Partially-Trained Three-Layer
Neural Networks
- arxiv url: http://arxiv.org/abs/2210.16286v1
- Date: Fri, 28 Oct 2022 17:26:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 15:47:31.728915
- Title: A Functional-Space Mean-Field Theory of Partially-Trained Three-Layer
Neural Networks
- Title(参考訳): 部分学習型3層ニューラルネットワークの関数空間平均場理論
- Authors: Zhengdao Chen, Eric Vanden-Eijnden, Joan Bruna
- Abstract要約: 本稿では,第1層がランダムで固定された3層NNモデルの無限幅限界について検討する。
我々の理論はモデルの異なるスケーリング選択に対応しており、結果としてMF制限の2つの条件が顕著な振舞いを示す。
- 参考スコア(独自算出の注目度): 49.870593940818715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To understand the training dynamics of neural networks (NNs), prior studies
have considered the infinite-width mean-field (MF) limit of two-layer NN,
establishing theoretical guarantees of its convergence under gradient flow
training as well as its approximation and generalization capabilities. In this
work, we study the infinite-width limit of a type of three-layer NN model whose
first layer is random and fixed. To define the limiting model rigorously, we
generalize the MF theory of two-layer NNs by treating the neurons as belonging
to functional spaces. Then, by writing the MF training dynamics as a kernel
gradient flow with a time-varying kernel that remains positive-definite, we
prove that its training loss in $L_2$ regression decays to zero at a linear
rate. Furthermore, we define function spaces that include the solutions
obtainable through the MF training dynamics and prove Rademacher complexity
bounds for these spaces. Our theory accommodates different scaling choices of
the model, resulting in two regimes of the MF limit that demonstrate
distinctive behaviors while both exhibiting feature learning.
- Abstract(参考訳): ニューラルネットワーク(nns)のトレーニングダイナミクスを理解するために、先行研究は2層nnの無限幅平均場(mf)限界を検討し、勾配流訓練下での収束の理論的保証と近似と一般化能力を確立した。
本研究では,第1層がランダムで固定された3層NNモデルの無限幅限界について検討する。
制限モデルを厳密に定義するために,ニューロンを機能空間に属するものとして扱うことにより,二層NNのMF理論を一般化する。
そして、MFトレーニングダイナミクスを正定値な時間変化カーネルを持つカーネル勾配流として記述することにより、線形速度で1L_2$回帰のトレーニング損失が0に減衰することを示す。
さらに、mfトレーニングダイナミクスによって得られる解を含む関数空間を定義し、これらの空間のラデマッハ複雑性境界を証明する。
我々の理論はモデルの異なるスケーリング選択に対応しており、特徴学習をしながら特徴的行動を示すMF制限の2つの規則が導かれる。
関連論文リスト
- Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Mean-Field Analysis of Two-Layer Neural Networks: Global Optimality with
Linear Convergence Rates [7.094295642076582]
平均場体制はNTK(lazy training)体制の理論的に魅力的な代替手段である。
平均場状態における連続ノイズ降下により訓練された2層ニューラルネットワークに対する線形収束結果を確立した。
論文 参考訳(メタデータ) (2022-05-19T21:05:40Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - Limiting fluctuation and trajectorial stability of multilayer neural
networks with mean field training [3.553493344868413]
ネットワーク深度における多層ネットワークの場合の変動について検討する。
この2階のMF限界におけるニューロン間の複雑な相互作用の枠組みを実演する。
極限定理は、この極限と大幅ネットワークのゆらぎを関連付けることが証明されている。
論文 参考訳(メタデータ) (2021-10-29T17:58:09Z) - Global Convergence of Three-layer Neural Networks in the Mean Field
Regime [3.553493344868413]
平均場系では、ニューラルネットワークは適切にスケールされ、幅は無限大になる傾向にあり、学習ダイナミクスは平均場限として知られる非線形かつ非自明な動的限界に傾向がある。
最近の研究は、この分析を2層ネットワークに適用し、グローバル収束保証を提供した。
平均場における非正規化フィードフォワード三層ネットワークに対する大域収束結果を示す。
論文 参考訳(メタデータ) (2021-05-11T17:45:42Z) - Phase diagram for two-layer ReLU neural networks at infinite-width limit [6.380166265263755]
我々は、2層ReLUニューラルネットワークの位相図を無限幅極限で描画する。
位相図の3つのレギュレーション、すなわち線形レギュレーション、臨界レギュレーション、凝縮レギュレーションを同定する。
線形状態においては、NNトレーニングダイナミクスは指数的損失減衰を持つランダム特徴モデルとほぼ同様の線形である。
凝縮状態において、能動ニューロンがいくつかの異なる向きで凝縮されていることを示す実験を通して、我々は実験を行う。
論文 参考訳(メタデータ) (2020-07-15T06:04:35Z) - Generalization bound of globally optimal non-convex neural network
training: Transportation map estimation by infinite dimensional Langevin
dynamics [50.83356836818667]
本稿では,ディープラーニングの最適化を一般化誤差と関連づけて解析する理論フレームワークを提案する。
ニューラルネットワーク最適化分析のための平均場理論やニューラル・タンジェント・カーネル理論のような既存のフレームワークは、そのグローバル収束を示すために、ネットワークの無限幅の限界を取る必要がある。
論文 参考訳(メタデータ) (2020-07-11T18:19:50Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。