Fugu-MT 論文翻訳(概要): Dynamics of Finite Width Kernel and Prediction Fluctuations in Mean Field Neural Networks

論文の概要: Dynamics of Finite Width Kernel and Prediction Fluctuations in Mean Field Neural Networks

arxiv url: http://arxiv.org/abs/2304.03408v1
Date: Thu, 6 Apr 2023 23:11:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-10 13:20:26.504541
Title: Dynamics of Finite Width Kernel and Prediction Fluctuations in Mean Field Neural Networks
Title（参考訳）: 平均場ニューラルネットワークにおける有限幅カーネルのダイナミクスと予測変動
Authors: Blake Bordelon, Cengiz Pehlevan
Abstract要約: 広義だが有限な特徴学習ニューラルネットワークにおける有限幅効果のダイナミクスを解析する。幅は摂動的だが,特徴学習の強みには摂動的ではない。
参考スコア（独自算出の注目度）: 18.27510863075184
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We analyze the dynamics of finite width effects in wide but finite feature learning neural networks. Unlike many prior analyses, our results, while perturbative in width, are non-perturbative in the strength of feature learning. Starting from a dynamical mean field theory (DMFT) description of infinite width deep neural network kernel and prediction dynamics, we provide a characterization of the $\mathcal{O}(1/\sqrt{\text{width}})$ fluctuations of the DMFT order parameters over random initialization of the network weights. In the lazy limit of network training, all kernels are random but static in time and the prediction variance has a universal form. However, in the rich, feature learning regime, the fluctuations of the kernels and predictions are dynamically coupled with variance that can be computed self-consistently. In two layer networks, we show how feature learning can dynamically reduce the variance of the final NTK and final network predictions. We also show how initialization variance can slow down online learning in wide but finite networks. In deeper networks, kernel variance can dramatically accumulate through subsequent layers at large feature learning strengths, but feature learning continues to improve the SNR of the feature kernels. In discrete time, we demonstrate that large learning rate phenomena such as edge of stability effects can be well captured by infinite width dynamics and that initialization variance can decrease dynamically. For CNNs trained on CIFAR-10, we empirically find significant corrections to both the bias and variance of network dynamics due to finite width.
Abstract（参考訳）: 広義だが有限な特徴学習ニューラルネットワークにおける有限幅効果のダイナミクスを解析する。多くの先行分析と異なり, 幅が摂動的ではあるが, 特徴学習の強度は摂動的ではない。無限幅ディープニューラルネットワークカーネルの動的平均場理論(DMFT)記述と予測力学から始まり、ネットワーク重みのランダム初期化に対するDMFTオーダーパラメータの変動を$\mathcal{O}(1/\sqrt{\text{width}})$に特徴づける。ネットワークトレーニングの遅延制限では、すべてのカーネルはランダムだが静的であり、予測分散は普遍的な形式を持つ。しかし、リッチで特徴学習の体制では、カーネルと予測のゆらぎは、自己整合的に計算できる分散と動的に結合する。 2層ネットワークにおいて,機能学習によって最終ntkと最終ネットワーク予測の分散を動的に低減できることを示す。また,初期化のばらつきが,大規模だが有限のネットワークでオンライン学習を遅くする可能性を示す。より深いネットワークでは、カーネルの分散は後続の階層を通じて大きな特徴学習強度で劇的に増大するが、機能学習は機能カーネルのSNRを改善し続けている。離散時間において,安定性効果のエッジのような大きな学習速度現象は無限幅ダイナミクスによってよく捉えられ,初期化分散は動的に減少することを示した。 CIFAR-10で訓練されたCNNに対して、有限幅によるネットワークダイナミクスのバイアスと分散の両方に有意な補正を経験的に求める。

関連論文リスト

Feature Learning and Generalization in Deep Networks with Orthogonal Weights [1.7956122940209063]
独立なガウス分布からの数値的な重みを持つディープニューラルネットワークは臨界に調整することができる。これらのネットワークは、ネットワークの深さとともに線形に成長する変動を示す。行列のアンサンブルから得られるタン・アクティベーションと重みを持つ長方形のネットワークが、それに対応する事前アクティベーション・揺らぎを持つことを示す。
論文参考訳（メタデータ） (2023-10-11T18:00:02Z)
Deep Neural Networks Tend To Extrapolate Predictably [51.303814412294514]
ニューラルネットワークの予測は、アウト・オブ・ディストリビューション(OOD)入力に直面した場合、予測不可能で過信される傾向がある。我々は、入力データがOODになるにつれて、ニューラルネットワークの予測が一定値に向かう傾向があることを観察する。我々は、OOD入力の存在下でリスクに敏感な意思決定を可能にするために、私たちの洞察を実際に活用する方法を示します。
論文参考訳（メタデータ） (2023-10-02T03:25:32Z)
Connecting NTK and NNGP: A Unified Theoretical Framework for Wide Neural Network Learning Dynamics [6.349503549199403]
我々は、ディープ・ワイド・ニューラルネットワークの学習プロセスのための包括的なフレームワークを提供する。拡散相を特徴づけることで、私たちの研究は脳内の表現的ドリフトに光を当てます。
論文参考訳（メタデータ） (2023-09-08T18:00:01Z)
Speed Limits for Deep Learning [67.69149326107103]
熱力学の最近の進歩は、初期重量分布から完全に訓練されたネットワークの最終分布への移動速度の制限を可能にする。線形および線形化可能なニューラルネットワークに対して,これらの速度制限に対する解析式を提供する。 NTKスペクトルとラベルのスペクトル分解に関するいくつかの妥当なスケーリング仮定を考えると、学習はスケーリングの意味で最適である。
論文参考訳（メタデータ） (2023-07-27T06:59:46Z)
Feature-Learning Networks Are Consistent Across Widths At Realistic Scales [72.27228085606147]
様々なアーキテクチャやデータセットにわたる特徴学習ニューラルネットワークのダイナミクスに対する幅の影響について検討する。トレーニングの初期、オンラインデータでトレーニングされた広範なニューラルネットワークは、損失曲線が同じであるだけでなく、トレーニング全体を通じてポイントワイドなテスト予測に一致している。しかし、より狭いネットワークのアンサンブルは、単一のワイドネットワークよりも性能が劣っている。
論文参考訳（メタデータ） (2023-05-28T17:09:32Z)
Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文参考訳（メタデータ） (2023-01-01T02:11:39Z)
The Influence of Learning Rule on Representation Dynamics in Wide Neural Networks [18.27510863075184]
我々は、フィードバックアライメント(FA)、ダイレクトフィードバックアライメント(DFA)、エラー変調ヘビアン学習(Hebb)で訓練された無限幅の深い勾配ネットワークを解析する。これらの学習規則のそれぞれに対して、無限幅での出力関数の進化は、時間変化の有効なニューラルネットワークカーネル(eNTK)によって制御されることを示す。遅延訓練限界では、このeNTKは静的であり、進化しないが、リッチ平均場状態では、このカーネルの進化は動的平均場理論(DMFT)と自己整合的に決定することができる。
論文参考訳（メタデータ） (2022-10-05T11:33:40Z)
Training Integrable Parameterizations of Deep Neural Networks in the Infinite-Width Limit [0.0]
大きな幅のダイナミクスは実世界のディープネットワークに関する実践的な洞察を導いてきた。 2層ニューラルネットワークでは、トレーニングされたモデルの性質が初期ランダムウェイトの大きさによって根本的に変化することが理解されている。この自明な振る舞いを避けるための様々な手法を提案し、その結果のダイナミクスを詳細に分析する。
論文参考訳（メタデータ） (2021-10-29T07:53:35Z)
Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文参考訳（メタデータ） (2020-07-31T01:57:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。