論文の概要: On the Neural Feature Ansatz for Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2510.15563v1
- Date: Fri, 17 Oct 2025 11:47:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.604483
- Title: On the Neural Feature Ansatz for Deep Neural Networks
- Title(参考訳): ディープ・ニューラル・ネットワークのためのニューラル・フィーチャー・アンサッツについて
- Authors: Edward Tansley, Estelle Massart, Coralia Cartis,
- Abstract要約: The Neural Feature Ansatz held through training for two-layer linear network with exponent $alpha = 1/2$。
我々はNFAが非線形アクティベーションを持つネットワークアーキテクチャを保たないことを示す反例を示す。
- 参考スコア(独自算出の注目度): 0.12744523252873352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding feature learning is an important open question in establishing a mathematical foundation for deep neural networks. The Neural Feature Ansatz (NFA) states that after training, the Gram matrix of the first-layer weights of a deep neural network is proportional to some power $\alpha>0$ of the average gradient outer product (AGOP) of this network with respect to its inputs. Assuming gradient flow dynamics with balanced weight initialization, the NFA was proven to hold throughout training for two-layer linear networks with exponent $\alpha = 1/2$ (Radhakrishnan et al., 2024). We extend this result to networks with $L \geq 2$ layers, showing that the NFA holds with exponent $\alpha = 1/L$, thus demonstrating a depth dependency of the NFA. Furthermore, we prove that for unbalanced initialization, the NFA holds asymptotically through training if weight decay is applied. We also provide counterexamples showing that the NFA does not hold for some network architectures with nonlinear activations, even when these networks fit arbitrarily well the training data. We thoroughly validate our theoretical results through numerical experiments across a variety of optimization algorithms, weight decay rates and initialization schemes.
- Abstract(参考訳): 機能学習を理解することは、ディープニューラルネットワークの数学的基盤を確立する上で重要なオープンな問題である。
The Neural Feature Ansatz (NFA) は、訓練後、ディープニューラルネットワークの第一層重みのグラム行列は、入力に関して、このネットワークの平均勾配外積(AGOP)の$\alpha>0$に比例すると述べている。
バランスの取れた初期化を伴う勾配流のダイナミクスを仮定すると、NFAは指数$\alpha = 1/2$ (Radhakrishnan et al , 2024) の2層線形ネットワークのトレーニングを通して保持することが証明された。
この結果は、$L \geq 2$ 層を持つネットワークに拡張され、NFA が指数 $\alpha = 1/L$ を持ち、NFA の深さ依存性を示す。
さらに,非平衡初期化の場合,NFAは重量減衰を適用した場合のトレーニングを通じて漸近的に保持することを示した。
また,NFAがトレーニングデータに適度に適合していても,非線形アクティベーションを伴うネットワークアーキテクチャを保たないことを示す反例も提示する。
我々は、様々な最適化アルゴリズム、重み減衰率、初期化スキームの数値実験を通じて、理論結果を徹底的に検証する。
関連論文リスト
- Low-rank bias, weight decay, and model merging in neural networks [12.352761060862072]
L2$正規化によって誘導される深層ニューラルネットワークのいくつかの特性を示す。
さらに,$L2$正規化と低ランクバイアスによって実現されるマルチタスク学習現象について検討した。
論文 参考訳(メタデータ) (2025-02-24T17:17:00Z) - Demystifying Lazy Training of Neural Networks from a Macroscopic Viewpoint [5.9954962391837885]
ニューラルネットワークの勾配勾配勾配ダイナミクスをマクロ的限界レンズを用いて検討する。
我々の研究は、勾配降下がディープニューラルネットワークを高速でトレーニング損失ゼロに駆動できることを明らかにした。
我々のアプローチは、Neural Tangent Kernel(NTK)パラダイムからインスピレーションを得ている。
論文 参考訳(メタデータ) (2024-04-07T08:07:02Z) - Speed Limits for Deep Learning [67.69149326107103]
熱力学の最近の進歩は、初期重量分布から完全に訓練されたネットワークの最終分布への移動速度の制限を可能にする。
線形および線形化可能なニューラルネットワークに対して,これらの速度制限に対する解析式を提供する。
NTKスペクトルとラベルのスペクトル分解に関するいくつかの妥当なスケーリング仮定を考えると、学習はスケーリングの意味で最適である。
論文 参考訳(メタデータ) (2023-07-27T06:59:46Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Robust Training and Verification of Implicit Neural Networks: A
Non-Euclidean Contractive Approach [64.23331120621118]
本稿では,暗黙的ニューラルネットワークのトレーニングとロバスト性検証のための理論的および計算的枠組みを提案する。
組込みネットワークを導入し、組込みネットワークを用いて、元のネットワークの到達可能な集合の超近似として$ell_infty$-normボックスを提供することを示す。
MNISTデータセット上で暗黙的なニューラルネットワークをトレーニングするためにアルゴリズムを適用し、我々のモデルの堅牢性と、文献における既存のアプローチを通じてトレーニングされたモデルを比較する。
論文 参考訳(メタデータ) (2022-08-08T03:13:24Z) - A Convergence Analysis of Nesterov's Accelerated Gradient Method in
Training Deep Linear Neural Networks [21.994004684742812]
モメンタム法は高速軌道のトレーニングネットワークで広く用いられている。
ランダム数と$kappaOの収束は、大域的な最小値に収束できることを示す。
我々は解析を深い線形ResNetに拡張し、同様の結果を導出する。
論文 参考訳(メタデータ) (2022-04-18T13:24:12Z) - On the Neural Tangent Kernel Analysis of Randomly Pruned Neural Networks [91.3755431537592]
ニューラルネットワークのニューラルカーネル(NTK)に重みのランダムプルーニングが及ぼす影響について検討する。
特に、この研究は、完全に接続されたニューラルネットワークとそのランダムに切断されたバージョン間のNTKの等価性を確立する。
論文 参考訳(メタデータ) (2022-03-27T15:22:19Z) - The edge of chaos: quantum field theory and deep neural networks [0.0]
我々は、ディープニューラルネットワークの一般クラスに対応する量子場理論を明示的に構築する。
我々は、深さ$T$と幅$N$との比の摂動展開において、相関関数に対するループ補正を計算する。
我々の分析は、急速に出現するNN-QFT対応に対する第一原理のアプローチを提供し、ディープニューラルネットワークの臨界性の研究にいくつかの興味深い道を開く。
論文 参考訳(メタデータ) (2021-09-27T18:00:00Z) - A quantum algorithm for training wide and deep classical neural networks [72.2614468437919]
勾配勾配勾配による古典的トレーサビリティに寄与する条件は、量子線形系を効率的に解くために必要な条件と一致することを示す。
MNIST画像データセットがそのような条件を満たすことを数値的に示す。
我々は、プールを用いた畳み込みニューラルネットワークのトレーニングに$O(log n)$の実証的証拠を提供する。
論文 参考訳(メタデータ) (2021-07-19T23:41:03Z) - Connecting Weighted Automata, Tensor Networks and Recurrent Neural
Networks through Spectral Learning [58.14930566993063]
我々は、形式言語と言語学からの重み付き有限オートマトン(WFA)、機械学習で使用されるリカレントニューラルネットワーク、テンソルネットワークの3つのモデル間の接続を提示する。
本稿では,連続ベクトル入力の列上に定義された線形2-RNNに対する最初の証明可能な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-19T15:28:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。