論文の概要: Infinite-width limit of deep linear neural networks
- arxiv url: http://arxiv.org/abs/2211.16980v1
- Date: Tue, 29 Nov 2022 18:37:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 16:31:43.962801
- Title: Infinite-width limit of deep linear neural networks
- Title(参考訳): 深い線形ニューラルネットワークの無限幅限界
- Authors: L\'ena\"ic Chizat, Maria Colombo, Xavier Fern\'andez-Real, Alessio
Figalli
- Abstract要約: 本研究では,ランダムパラメータを持つディープ線形ニューラルネットワークの無限幅限界について検討する。
線形予測器は最小の$ell$-norm最小限のリスクに指数的に収束することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies the infinite-width limit of deep linear neural networks
initialized with random parameters. We obtain that, when the number of neurons
diverges, the training dynamics converge (in a precise sense) to the dynamics
obtained from a gradient descent on an infinitely wide deterministic linear
neural network. Moreover, even if the weights remain random, we get their
precise law along the training dynamics, and prove a quantitative convergence
result of the linear predictor in terms of the number of neurons.
We finally study the continuous-time limit obtained for infinitely wide
linear neural networks and show that the linear predictors of the neural
network converge at an exponential rate to the minimal $\ell_2$-norm minimizer
of the risk.
- Abstract(参考訳): 本稿では,ランダムパラメータを初期化した深部線形ニューラルネットワークの無限幅限界について検討する。
ニューロンの数が分岐すると、トレーニングダイナミクスは無限に広い決定論的線形ニューラルネットワーク上の勾配降下から得られる力学に(正確には)収束する。
さらに、重みがランダムなままであっても、トレーニングダイナミクスに沿って正確な法則が得られ、ニューロンの数の観点から線形予測器の定量的収束結果が証明される。
最後に,無限大の線形ニューラルネットワークに対して得られた連続時間限界について検討し,リスク最小の$\ell_2$-norm 最小値に対して指数関数速度でニューラルネットワークの線形予測器が収束することを示す。
関連論文リスト
- Proportional infinite-width infinite-depth limit for deep linear neural networks [0.16385815610837165]
大規模ネットワークのコンテキストにおけるランダムパラメータを持つ線形ニューラルネットワークの分布特性について検討し,各層あたりのニューロン数に比例して層数が分散することを示した。
出力間の相関を保った非ガウス分布を導出し, 深さと幅の両方が分岐するが, 一定比を維持するような比例極限を探索する。
論文 参考訳(メタデータ) (2024-11-22T11:25:52Z) - How many Neurons do we need? A refined Analysis for Shallow Networks
trained with Gradient Descent [0.0]
ニューラル・タンジェント・カーネル・システムにおける2層ニューラルネットワークの一般化特性を解析した。
非パラメトリック回帰の枠組みにおいて、最小限最適であることが知られている収束の速い速度を導出する。
論文 参考訳(メタデータ) (2023-09-14T22:10:28Z) - Speed Limits for Deep Learning [67.69149326107103]
熱力学の最近の進歩は、初期重量分布から完全に訓練されたネットワークの最終分布への移動速度の制限を可能にする。
線形および線形化可能なニューラルネットワークに対して,これらの速度制限に対する解析式を提供する。
NTKスペクトルとラベルのスペクトル分解に関するいくつかの妥当なスケーリング仮定を考えると、学習はスケーリングの意味で最適である。
論文 参考訳(メタデータ) (2023-07-27T06:59:46Z) - Addressing caveats of neural persistence with deep graph persistence [54.424983583720675]
神経の持続性に影響を与える主な要因は,ネットワークの重みのばらつきと大きな重みの空間集中である。
単一層ではなく,ニューラルネットワーク全体へのニューラルネットワークの持続性に基づくフィルタリングの拡張を提案する。
これにより、ネットワーク内の永続的なパスを暗黙的に取り込み、分散に関連する問題を緩和するディープグラフの永続性測定が得られます。
論文 参考訳(メタデータ) (2023-07-20T13:34:11Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Mean-Field Analysis of Two-Layer Neural Networks: Global Optimality with
Linear Convergence Rates [7.094295642076582]
平均場体制はNTK(lazy training)体制の理論的に魅力的な代替手段である。
平均場状態における連続ノイズ降下により訓練された2層ニューラルネットワークに対する線形収束結果を確立した。
論文 参考訳(メタデータ) (2022-05-19T21:05:40Z) - On the Neural Tangent Kernel Analysis of Randomly Pruned Neural Networks [91.3755431537592]
ニューラルネットワークのニューラルカーネル(NTK)に重みのランダムプルーニングが及ぼす影響について検討する。
特に、この研究は、完全に接続されたニューラルネットワークとそのランダムに切断されたバージョン間のNTKの等価性を確立する。
論文 参考訳(メタデータ) (2022-03-27T15:22:19Z) - Depth induces scale-averaging in overparameterized linear Bayesian
neural networks [20.864082353441685]
ディープベイズニューラルネットワークにおける推論は無限幅極限においてのみ完全に理解される。
ここでは,有限深度線形ベイズニューラルネットワークをガウス過程予測器のデータ依存スケール混合として,出力チャネルにわたって解釈する。
論文 参考訳(メタデータ) (2021-11-23T15:48:47Z) - Linear approximability of two-layer neural networks: A comprehensive
analysis based on spectral decay [4.042159113348107]
まず、単一ニューロンの場合について考察し、コルモゴロフ幅で定量化される線形近似性は、共役核の固有値崩壊によって制御されることを示す。
また,2層ニューラルネットワークについても同様の結果が得られた。
論文 参考訳(メタデータ) (2021-08-10T23:30:29Z) - Generalization bound of globally optimal non-convex neural network
training: Transportation map estimation by infinite dimensional Langevin
dynamics [50.83356836818667]
本稿では,ディープラーニングの最適化を一般化誤差と関連づけて解析する理論フレームワークを提案する。
ニューラルネットワーク最適化分析のための平均場理論やニューラル・タンジェント・カーネル理論のような既存のフレームワークは、そのグローバル収束を示すために、ネットワークの無限幅の限界を取る必要がある。
論文 参考訳(メタデータ) (2020-07-11T18:19:50Z) - Measuring Model Complexity of Neural Networks with Curve Activation
Functions [100.98319505253797]
本稿では,線形近似ニューラルネットワーク(LANN)を提案する。
ニューラルネットワークのトレーニングプロセスを実験的に検討し、オーバーフィッティングを検出する。
我々は、$L1$と$L2$正規化がモデルの複雑さの増加を抑制することを発見した。
論文 参考訳(メタデータ) (2020-06-16T07:38:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。