論文の概要: A simple mean field model of feature learning
- arxiv url: http://arxiv.org/abs/2510.15174v1
- Date: Thu, 16 Oct 2025 22:28:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.405812
- Title: A simple mean field model of feature learning
- Title(参考訳): 特徴学習の簡易平均場モデル
- Authors: Niclas Göring, Chris Mingard, Yoonsoo Nam, Ard Louis,
- Abstract要約: 勾配ランゲヴィン力学(SGLD)を訓練した2層非線形ネットワークに対する、トラクタブルで自己整合平均場(MF)理論を導出する。
無限の幅では、この理論はカーネルリッジの回帰に還元されるが、有限の幅では、ネットワークがターゲット関数と突然整合する対称性の破れ相転移を予測する。
基本的なMF理論は、有限幅状態におけるFLの出現に関する理論的な洞察を与えるが、半定量的にFLの開始をノイズやサンプルサイズで予測することは、遷移後の一般化の改善を著しく過小評価する。
- 参考スコア(独自算出の注目度): 2.3215806943173676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Feature learning (FL), where neural networks adapt their internal representations during training, remains poorly understood. Using methods from statistical physics, we derive a tractable, self-consistent mean-field (MF) theory for the Bayesian posterior of two-layer non-linear networks trained with stochastic gradient Langevin dynamics (SGLD). At infinite width, this theory reduces to kernel ridge regression, but at finite width it predicts a symmetry breaking phase transition where networks abruptly align with target functions. While the basic MF theory provides theoretical insight into the emergence of FL in the finite-width regime, semi-quantitatively predicting the onset of FL with noise or sample size, it substantially underestimates the improvements in generalisation after the transition. We trace this discrepancy to a key mechanism absent from the plain MF description: \textit{self-reinforcing input feature selection}. Incorporating this mechanism into the MF theory allows us to quantitatively match the learning curves of SGLD-trained networks and provides mechanistic insight into FL.
- Abstract(参考訳): ニューラルネットワークがトレーニング中に内部表現に適応する特徴学習(FL)は、いまだに理解されていない。
統計物理学の手法を用いて、確率勾配ランゲヴィン力学 (SGLD) で訓練された2層非線形ネットワークのベイズ的後続に対するトラクタブルで自己整合平均場 (MF) 理論を導出した。
無限の幅では、この理論はカーネルリッジの回帰に還元されるが、有限の幅では、ネットワークがターゲット関数と突然整合する対称性の破れ相転移を予測する。
基本的なMF理論は、有限幅状態におけるFLの出現に関する理論的な洞察を与えるが、半定量的にFLの開始をノイズやサンプルサイズで予測することは、遷移後の一般化の改善を著しく過小評価する。
我々はこの違いを、平易なMF記述から欠落したキーメカニズムに遡る: \textit{self-reinforcecing input feature selection}。
この機構をMF理論に組み込むことで、SGLD学習ネットワークの学習曲線を定量的にマッチングし、FLに関する力学的な洞察を提供する。
関連論文リスト
- Precise gradient descent training dynamics for finite-width multi-layer neural networks [8.057006406834466]
一般多層ニューラルネットワークにおける勾配降下繰り返しの正確な分布解析を行った。
我々の非漸近状態進化理論は、第一層重みのガウス的ゆらぎと深層重みの集中を捉えている。
論文 参考訳(メタデータ) (2025-05-08T02:19:39Z) - Global Convergence and Rich Feature Learning in $L$-Layer Infinite-Width Neural Networks under $μ$P Parametrization [66.03821840425539]
本稿では, テンソル勾配プログラム(SGD)フレームワークを用いた$L$層ニューラルネットワークのトレーニング力学について検討する。
SGDにより、これらのネットワークが初期値から大きく逸脱する線形独立な特徴を学習できることを示す。
このリッチな特徴空間は、関連するデータ情報をキャプチャし、トレーニングプロセスの収束点が世界最小であることを保証する。
論文 参考訳(メタデータ) (2025-03-12T17:33:13Z) - Revealing Decurve Flows for Generalized Graph Propagation [108.80758541147418]
本研究は,有向グラフと重み付きグラフを用いて,m文を一般化した伝播を定義することによって,従来のメッセージパッシング(中心からグラフ学習)の限界に対処する。
この分野ではじめて、データセットにおける学習された伝播パターンの予備的な探索を含む。
論文 参考訳(メタデータ) (2024-02-13T14:13:17Z) - A Functional-Space Mean-Field Theory of Partially-Trained Three-Layer
Neural Networks [49.870593940818715]
本稿では,第1層がランダムで固定された3層NNモデルの無限幅限界について検討する。
我々の理論はモデルの異なるスケーリング選択に対応しており、結果としてMF制限の2つの条件が顕著な振舞いを示す。
論文 参考訳(メタデータ) (2022-10-28T17:26:27Z) - Extended Unconstrained Features Model for Exploring Deep Neural Collapse [59.59039125375527]
近年、ディープニューラルネットワークで「神経崩壊」(NC)と呼ばれる現象が経験的に観察されている。
最近の論文は、単純化された「制約なし特徴モデル」を最適化する際に、この構造を持つ最小化器が出現することを示している。
本稿では, 正規化MSE損失に対するUDFについて検討し, クロスエントロピーの場合よりも最小化器の特徴がより構造化可能であることを示す。
論文 参考訳(メタデータ) (2022-02-16T14:17:37Z) - Limiting fluctuation and trajectorial stability of multilayer neural
networks with mean field training [3.553493344868413]
ネットワーク深度における多層ネットワークの場合の変動について検討する。
この2階のMF限界におけるニューロン間の複雑な相互作用の枠組みを実演する。
極限定理は、この極限と大幅ネットワークのゆらぎを関連付けることが証明されている。
論文 参考訳(メタデータ) (2021-10-29T17:58:09Z) - FL-NTK: A Neural Tangent Kernel-based Framework for Federated Learning
Convergence Analysis [27.022551495550676]
本稿では,FLの勾配降下によって訓練された過減化ReLUニューラルネットワークに対応するFL-NTK(Learning Neural Kernel)について,新しい収束解析法を提案する。
理論的には、FL-NTKは線形学習パラメータを適切に調整した自明な速度で大域最適解に収束する。
論文 参考訳(メタデータ) (2021-05-11T13:05:53Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。