論文の概要: Scaling Laws and Spectra of Shallow Neural Networks in the Feature Learning Regime
- arxiv url: http://arxiv.org/abs/2509.24882v1
- Date: Mon, 29 Sep 2025 14:58:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.067355
- Title: Scaling Laws and Spectra of Shallow Neural Networks in the Feature Learning Regime
- Title(参考訳): 特徴学習レジームにおける浅層ニューラルネットワークのスケーリング法則とスペクトル
- Authors: Leonardo Defilippis, Yizhou Xu, Julius Girardin, Emanuele Troiani, Vittorio Erba, Lenka Zdeborová, Bruno Loureiro, Florent Krzakala,
- Abstract要約: 本稿では,特徴学習体制における2次ニューラルネットワークと対角ニューラルネットワークのスケーリング法則を体系的に解析する。
我々は, 余剰リスクのスケーリング指数を, 試料の複雑さと重量減衰の関数として, 詳細な位相図を導出した。
重みスペクトルにおけるパワーローテールの出現とネットワーク一般化性能を結合した最近の経験的観測の理論的検証を行う。
- 参考スコア(独自算出の注目度): 34.77547342230355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural scaling laws underlie many of the recent advances in deep learning, yet their theoretical understanding remains largely confined to linear models. In this work, we present a systematic analysis of scaling laws for quadratic and diagonal neural networks in the feature learning regime. Leveraging connections with matrix compressed sensing and LASSO, we derive a detailed phase diagram for the scaling exponents of the excess risk as a function of sample complexity and weight decay. This analysis uncovers crossovers between distinct scaling regimes and plateau behaviors, mirroring phenomena widely reported in the empirical neural scaling literature. Furthermore, we establish a precise link between these regimes and the spectral properties of the trained network weights, which we characterize in detail. As a consequence, we provide a theoretical validation of recent empirical observations connecting the emergence of power-law tails in the weight spectrum with network generalization performance, yielding an interpretation from first principles.
- Abstract(参考訳): ニューラルスケーリング法則は、近年のディープラーニングの進歩の多くを支えているが、その理論的理解は主に線形モデルに限られている。
本研究では,特徴学習体制における2次ニューラルネットワークと対角ニューラルネットワークのスケーリング法則を体系的に解析する。
マトリックス圧縮センシングとLASSOとの接続を利用して, 余剰リスクのスケーリング指数を, 試料の複雑さと重量減衰の関数として, 詳細な位相図を導出した。
この分析により、異なるスケーリングレジームとプラトーの挙動の交叉が明らかとなり、経験的ニューラルスケーリングの文献で広く報告されている現象を反映する。
さらに、これらの状態とトレーニングされたネットワーク重みのスペクトル特性とを正確に関連付け、詳細を特徴付ける。
その結果、重みスペクトルにおけるパワーローテールの出現とネットワーク一般化性能を結びつけた最近の経験的観測を理論的に検証し、第一原理からの解釈を得た。
関連論文リスト
- Models of Heavy-Tailed Mechanistic Universality [62.107333654304014]
トレーニングニューラルネットワークにおける重み付け行動を引き起こす属性を探索するために,ランダム行列モデルのファミリーを提案する。
このモデルの下では、3つの独立した因子の組み合わせによって、尾翼の電力法則によるスペクトル密度が生じる。
ニューラルネットワークトレーニングの5段階以上において、ニューラルネットワークのスケーリング法則、軌道、および5段階以上の位相を含む重尾の出現に対する我々のモデルの影響について論じる。
論文 参考訳(メタデータ) (2025-06-04T00:55:01Z) - Implicit bias produces neural scaling laws in learning curves, from perceptrons to deep networks [12.108234998867337]
我々は,異なるノルムベースの複雑性尺度の関数として,パフォーマンスの進化を規定する2つの新しいテキスト力学的スケーリング法則を同定する。
我々の発見は、CNN、ResNets、MNIST、CIFAR-10、CIFAR-100で訓練されたVision Transformersで一致している。
我々は,ロジスティックな損失で訓練された単一層パーセプトロンを用いて解析支援を行い,新しい動的スケーリング法則を導出する。
論文 参考訳(メタデータ) (2025-05-19T15:13:36Z) - Theoretical characterisation of the Gauss-Newton conditioning in Neural Networks [5.851101657703105]
ニューラルネットワークにおけるガウスニュートン行列(GN)の条件付けを理論的に特徴付けるための第一歩を踏み出す。
我々は、任意の深さと幅の深い線形ネットワークにおいて、GNの条件数に厳密な境界を確立する。
残りの接続や畳み込み層といったアーキテクチャコンポーネントに分析を拡張します。
論文 参考訳(メタデータ) (2024-11-04T14:56:48Z) - Analyzing Neural Scaling Laws in Two-Layer Networks with Power-Law Data Spectra [0.0]
ニューラルスケーリング法則は、深層ニューラルネットワークのパフォーマンスが、トレーニングデータサイズ、モデルの複雑さ、トレーニング時間などの重要な要因とどのようにスケールするかを記述する。
我々は, 統計力学の手法を用いて, 生徒-教員間の一パス勾配勾配を解析する。
論文 参考訳(メタデータ) (2024-10-11T17:21:42Z) - Generalization of Scaled Deep ResNets in the Mean-Field Regime [55.77054255101667]
無限深度および広帯域ニューラルネットワークの限界におけるエンスケールResNetについて検討する。
この結果から,遅延学習体制を超えた深層ResNetの一般化能力に関する新たな知見が得られた。
論文 参考訳(メタデータ) (2024-03-14T21:48:00Z) - Universal Scaling Laws of Absorbing Phase Transitions in Artificial Deep Neural Networks [0.8932296777085644]
信号伝播ダイナミクスの位相境界付近で動作する従来の人工深層ニューラルネットワークは、カオスのエッジとしても知られ、位相遷移を吸収する普遍的なスケーリング法則を示す。
我々は、伝搬力学の完全な決定論的性質を利用して、ニューラルネットワークの信号崩壊と吸収状態の類似を解明する。
論文 参考訳(メタデータ) (2023-07-05T13:39:02Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Formalizing Generalization and Robustness of Neural Networks to Weight
Perturbations [58.731070632586594]
非負のモノトーンアクティベーション機能を備えたフィードフォワードニューラルネットワークの重量変動に対する最初の形式解析を提供します。
また,重みの摂動に対して一般化し頑健なニューラルネットワークを訓練するための新しい理論駆動損失関数を設計した。
論文 参考訳(メタデータ) (2021-03-03T06:17:03Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z) - Understanding Generalization in Deep Learning via Tensor Methods [53.808840694241]
圧縮の観点から,ネットワークアーキテクチャと一般化可能性の関係について理解を深める。
本稿では、ニューラルネットワークの圧縮性と一般化性を強く特徴付ける、直感的で、データ依存的で、測定が容易な一連の特性を提案する。
論文 参考訳(メタデータ) (2020-01-14T22:26:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。