論文の概要: Feature Learning in Wide Neural Networks under $μ$P: Identifiability and Sparse-Dictionary Decomposition of the Mean-Field Limit
- arxiv url: http://arxiv.org/abs/2605.24710v1
- Date: Sat, 23 May 2026 19:26:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.340619
- Title: Feature Learning in Wide Neural Networks under $μ$P: Identifiability and Sparse-Dictionary Decomposition of the Mean-Field Limit
- Title(参考訳): $μ$P以下の広域ニューラルネットワークにおける特徴学習:平均場限界の同定可能性とスパース辞書分解
- Authors: Akmal Xodarev,
- Abstract要約: 雑音勾配降下の平均場限界のグローバルな存在と一意性を$P以下で証明する。
平均フィールド限界の識別可能性の特徴付けを行う。
特徴・学習・エラーの総分解を統計的・最適化・カオス伝播・疎残成分に導出する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We establish four structural results for feature learning in wide two-layer neural networks under the Maximal Update Parametrization ($μ$P). First, we prove global existence and uniqueness of the mean-field limit of noisy gradient descent under $μ$P, identifying the maximal admissible weight $w^*$ on the moment sequence of the initialization as the reciprocal parameter-moment-growth boundary, and hence the largest weighted moment class propagated by the flow. The finite-particle approximation has uniform-in-time squared-Wasserstein rate $O(N^{-1})$. Second, we characterize identifiability of the mean-field limit: two admissible parameter measures induce the same network function in $L^2$ exactly when their active components agree modulo the finite-rank realization symmetry of the architecture. The orbit depth $D^*_{\mathrm{orb}}$ is separated from the moment-variety depth $D^*_{\mathrm{var}}$. Third, under the Barron-Hermite target condition the active support of the long-time limit measure admits a sparse-dictionary decomposition: it is supported on at most $S^*$ atoms modulo finite-rank realization symmetry, with $S^*$ bounded by an explicit coefficient-threshold number. Fourth, we derive the total feature-learning-error decomposition into statistical, optimization, propagation-of-chaos, and sparse-residual components, with a target-dependent Hermite/Barron tail replacing any initialization-only residual. The four results are tied together by an architectural identity: the triple $(w^*, D^*_{\mathrm{orb}}, S^*)$ -- the maximal admissible weight, the orbit identifiability depth, and the sparse-dictionary depth at which the target is realizable -- is the natural learning cell of the architecture-data pair $(σ, ρ)$. The proofs are self-contained except for standard results from $μ$P and mean-field Langevin theory.
- Abstract(参考訳): 我々は、最大更新パラメトリゼーション(μ$P)の下で、広い2層ニューラルネットワークにおける特徴学習のための4つの構造的結果を確立する。
まず,最大許容量$w^*$を相反パラメータ-モーメント-成長境界として初期化のモーメント列上で同定し,フローによって伝播する最大重み付きモーメントクラスを同定し,雑音勾配降下の平均場限界をμ$P以下で証明する。
有限粒子近似は、一様時間二乗ワッサーシュタインレート$O(N^{-1})$を持つ。
2つの許容パラメータ測度は、それらの活性成分がアーキテクチャの有限ランク実現対称性を変調するとき、正確に$L^2$で同じネットワーク関数を誘導する。
軌道深さ $D^*_{\mathrm{orb}}$ はモーメント変数深さ $D^*_{\mathrm{var}}$ から分離される。
第3に、バロン・ハーマイト目標条件の下では、長時間の極限測度のアクティブな支持はスパースディクショナリー分解(英語版)(sparse-dictionary decomposition)を許容する:少なくとも$S^*$原子をモジュロ有限ランク実現対称性(英語版)(modulo finite-rank realization symmetric)でサポートし、明示的な係数-閾値数で有界な$S^*$を持つ。
第4に,特徴-学習-エラーの総分解を統計的,最適化,カオスの伝播,疎残留成分に導出し,初期化のみの残留物を置き換えるターゲット依存型Hermite/Barronテールを作成した。
3つの$(w^*, D^*_{\mathrm{orb}}, S^*)$ -- 最大許容重量、軌道の識別可能性深さ、ターゲットが実現可能なスパース次元深さ -- はアーキテクチャデータ対$(σ, ρ)$の自然学習セルである。
証明は、$μ$Pと平均場ランゲヴィン理論の標準結果を除いて自己完結である。
関連論文リスト
- Hardness of High-Dimensional Linear Classification [58.29089693778071]
我々は、最大半空間離散性問題に対する次元下界の新たな指数関数を確立する。
どちらも計算幾何学と機械学習の基本的問題であり、その正確で近似的な形式である。
論文 参考訳(メタデータ) (2026-03-19T15:53:41Z) - Quantitative Convergence of Wasserstein Gradient Flows of Kernel Mean Discrepancies [10.511277414974613]
ケルネル平均離散関数のワッサーシュタイン勾配流の定量的収束について検討した。
我々の設定は、特に無限幅および連続時間制限における浅層ニューラルネットワークのトレーニング力学をカバーしている。
論文 参考訳(メタデータ) (2026-03-02T15:32:54Z) - An Information-Minimal Geometry for Qubit-Efficient Optimization [0.0]
量子ビット効率の最適化を幾何学的問題として再検討する。
局所一貫性問題は、Sherali-Adams level-2 polytope $mathrmSA(2)$とちょうど一致する。
論文 参考訳(メタデータ) (2025-11-11T15:38:57Z) - Arithmetic-Mean $μ$P for Modern Architectures: A Unified Learning-Rate Scale for CNNs and ResNets [9.94514344279733]
Arithmetic-Mean $mu$P は個々の層ではなく、ネットワーク全体の平均1ステップのプレアクティベーション第2モーメントを一定スケールに制限する。
1次元および2次元の畳み込みネットワークの場合、最大更新学習率は$etastar(L)propto L-3/2$; を満足する。
論文 参考訳(メタデータ) (2025-10-05T19:22:50Z) - Emergence and scaling laws in SGD learning of shallow neural networks [64.48316762675141]
等方性ガウスデータに基づいてP$ニューロンを持つ2層ニューラルネットワークを学習するためのオンライン勾配降下(SGD)の複雑さについて検討した。
平均二乗誤差(MSE)を最小化するために,学生2層ネットワークのトレーニングのためのSGDダイナミックスを高精度に解析する。
論文 参考訳(メタデータ) (2025-04-28T16:58:55Z) - Constructive Universal Approximation and Finite Sample Memorization by Narrow Deep ReLU Networks [0.0]
我々は$N$の異なる点を持つデータセットが$mathbbRd$と$M$の出力クラスを正確に分類できることを示した。
また、任意の有界領域に対して$Lp(Omega; mathbbRm)$の普遍近似定理も証明する。
我々の結果は、深層ニューラルネットワークにおける制御性、表現性、およびトレーニングのダイナミクスを接続する統一的で解釈可能なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-09-10T14:31:21Z) - Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の勾配勾配勾配学習問題について検討する。
SGDに基づくアルゴリズムにより最適化された2層ニューラルネットワークは、情報指数に支配されない複雑さで$f_*$を学習する。
論文 参考訳(メタデータ) (2024-06-03T17:56:58Z) - Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。