論文の概要: Sharp feature-learning transitions and Bayes-optimal neural scaling laws in extensive-width networks
- arxiv url: http://arxiv.org/abs/2605.10395v1
- Date: Mon, 11 May 2026 11:39:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.772732
- Title: Sharp feature-learning transitions and Bayes-optimal neural scaling laws in extensive-width networks
- Title(参考訳): 広帯域ネットワークにおけるシャープ特徴学習遷移とベイズ最適ニューラルスケーリング則
- Authors: Minh-Toan Nguyen, Jean Barbier,
- Abstract要約: 雑音の多い質問から階層的な特徴を持つ一層教師ネットワークを学習する際の情報理論的限界について検討する。
有効幅$k_c$付近でtextscAdam を訓練した学生が,これらの最適スケーリング法則を実現することを示す。
- 参考スコア(独自算出の注目度): 8.250374560598493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the information-theoretic limits of learning a one-hidden-layer teacher network with hierarchical features from noisy queries, in the context of knowledge transfer to a smaller student model. We work in the high-dimensional regime where the teacher width $k$ scales linearly with the input dimension $d$ -- a setting that captures large-but-finite-width networks and has only recently become analytically tractable. Using a heuristic leave-one-out decoupling argument, validated numerically throughout, we derive asymptotically sharp characterizations of the Bayes-optimal generalization error and individual feature overlaps via a system of closed fixed-point equations. These equations reveal that feature learnability is governed by a sequence of sharp phase transitions: as data grows, teacher features become recoverable sequentially, each through a discontinuous jump in overlap. This sequential acquisition underlies a precise notion of \textit{effective width} $k_c$ -- the number of learnable features at a given data budget $n$ -- which unifies two distinct scaling regimes: a feature-learning regime in which the Bayes-optimal generalization error $\varepsilon^{\rm BO}$ scales as $ n^{1/(2β)-1}$, and a refinement regime in which it scales as $n^{-1}$, where $β>1/2$ is the exponent of the power-law feature hierarchy. Both laws collapse to the single relation $\varepsilon^{\rm BO}=Θ(k_c d/n)$. We further show empirically that a student trained with \textsc{Adam} near the effective width $k_c$ achieves these optimal scaling laws (up to a small algorithmic gap), and provide an information-theoretic account of the associated scaling in model size.
- Abstract(参考訳): 本研究では,より小さな学生モデルへの知識伝達の文脈において,雑音の多い質問から階層的な特徴を持つ一層教師ネットワークを学習する際の情報理論的限界について検討する。
私たちは、教師の幅が$k$で入力次元が$d$で線形にスケールする高次元の環境で働きます。
ベイズ最適一般化誤差と個々の特徴重なりの漸近的急激な特徴づけを、閉じた不動点方程式の系によって導き出す。
これらの方程式は、特徴学習性は鋭い相転移の連続によって支配されることを示している:データが大きくなるにつれて、教師の特徴は連続的に回復し、それぞれが連続しないジャンプを重なり合う。
このシーケンシャルな買収は、与えられたデータ予算における学習可能な機能の数である$k_c$ -- を正確に定義している。これは、2つの異なるスケーリングレギュレーションを統一するものである: ベイズ最適化の一般化誤差を持つ特徴学習レギュレーション $\varepsilon^{\rm BO}$ scales as $n^{1/(2β)-1}$、そして$β>1/2$はパワーロー特徴階層の指数である。
両方の法則は、単一の関係 $\varepsilon^{\rm BO} = (k_c d/n)$ に崩壊する。
さらに,有効幅$k_c$付近で学習した学生が,これらの最適スケーリング法則(アルゴリズムのギャップが小さくなるまで)を達成し,関連するスケーリングのモデルサイズに関する情報理論的な説明を提供することを実証的に示す。
関連論文リスト
- Neural Networks Learn Generic Multi-Index Models Near Information-Theoretic Limit [66.20349460098275]
一般ガウス多次元モデル $f(boldsymbolx)=g(boldsymbolUboldsymbolx)$ の勾配降下学習を隠蔽部分空間 $boldsymbolUin mathbbRrtimes d$ で研究する。
リンク関数上の一般的な非退化仮定の下では、層次勾配勾配勾配によって訓練された標準的な2層ニューラルネットワークは、$o_d(1)$テスト誤差でターゲットを不可知的に学習できることを示す。
論文 参考訳(メタデータ) (2025-11-19T04:46:47Z) - Beyond Softmax: A Natural Parameterization for Categorical Random Variables [61.709831225296305]
階層的なバイナリ分割のシーケンスで構成される関数である$textitcatnat$関数を紹介します。
実験により,提案した関数は学習効率を向上し,一貫した試験性能を特徴とするモデルが得られることを示した。
論文 参考訳(メタデータ) (2025-09-29T12:55:50Z) - Emergence and scaling laws in SGD learning of shallow neural networks [64.48316762675141]
等方性ガウスデータに基づいてP$ニューロンを持つ2層ニューラルネットワークを学習するためのオンライン勾配降下(SGD)の複雑さについて検討した。
平均二乗誤差(MSE)を最小化するために,学生2層ネットワークのトレーニングのためのSGDダイナミックスを高精度に解析する。
論文 参考訳(メタデータ) (2025-04-28T16:58:55Z) - Optimal generalisation and learning transition in extensive-width shallow neural networks near interpolation [4.976898227858662]
教師が指導する2層ニューラルネットワークを用いた教師型学習モデルについて考察する。
任意の活性化関数に対するネットワークのベイズ最適一般化誤差を近似する有効な理論を提供する。
論文 参考訳(メタデータ) (2025-01-30T17:56:52Z) - Learning Orthogonal Multi-Index Models: A Fine-Grained Information Exponent Analysis [54.57279006229212]
情報指数は、オンライン勾配降下のサンプルの複雑さを予測する上で重要な役割を担っている。
本研究では,2次項と高次項の両方を考慮することで,まず2次項を用いて関連する空間を学習できることを示す。
オンラインSGDの全体サンプルと複雑さは$tildeO(d PL-1 )$である。
論文 参考訳(メタデータ) (2024-10-13T00:14:08Z) - Bayesian Inference with Deep Weakly Nonlinear Networks [57.95116787699412]
我々は,完全連結ニューラルネットワークによるベイズ推定が解けることを示す物理レベルの厳密さを示す。
我々はモデルエビデンスを計算し、任意の温度で1/N$で任意の順序に後続する手法を提供する。
論文 参考訳(メタデータ) (2024-05-26T17:08:04Z) - High-dimensional Asymptotics of Feature Learning: How One Gradient Step
Improves the Representation [89.21686761957383]
2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。
我々の結果は、一つのステップでもランダムな特徴に対してかなりの優位性が得られることを示した。
論文 参考訳(メタデータ) (2022-05-03T12:09:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。