論文の概要: Phase Transitions for Feature Learning in Neural Networks
- arxiv url: http://arxiv.org/abs/2602.01434v1
- Date: Sun, 01 Feb 2026 20:47:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.780783
- Title: Phase Transitions for Feature Learning in Neural Networks
- Title(参考訳): ニューラルネットワークにおける特徴学習のための位相遷移
- Authors: Andrea Montanari, Zihao Wang,
- Abstract要約: 比例ニューロン$n,dtoin$,$n/dto$における2層ニューラルネットワークの降下ダイナミクスについて検討した。
ネットワークアーキテクチャとトレーニングアルゴリズムに学習ダイナミクスが依存することを研究する方法として, $_textNN$ のキャラクタリゼーションを公開しています。
- 参考スコア(独自算出の注目度): 27.411134657066267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: According to a popular viewpoint, neural networks learn from data by first identifying low-dimensional representations, and subsequently fitting the best model in this space. Recent works provide a formalization of this phenomenon when learning multi-index models. In this setting, we are given $n$ i.i.d. pairs $({\boldsymbol x}_i,y_i)$, where the covariate vectors ${\boldsymbol x}_i\in\mathbb{R}^d$ are isotropic, and responses $y_i$ only depend on ${\boldsymbol x}_i$ through a $k$-dimensional projection ${\boldsymbol Θ}_*^{\sf T}{\boldsymbol x}_i$. Feature learning amounts to learning the latent space spanned by ${\boldsymbol Θ}_*$. In this context, we study the gradient descent dynamics of two-layer neural networks under the proportional asymptotics $n,d\to\infty$, $n/d\toδ$, while the dimension of the latent space $k$ and the number of hidden neurons $m$ are kept fixed. Earlier work establishes that feature learning via polynomial-time algorithms is possible if $δ> δ_{\text{alg}}$, for $δ_{\text{alg}}$ a threshold depending on the data distribution, and is impossible (within a certain class of algorithms) below $δ_{\text{alg}}$. Here we derive an analogous threshold $δ_{\text{NN}}$ for two-layer networks. Our characterization of $δ_{\text{NN}}$ opens the way to study the dependence of learning dynamics on the network architecture and training algorithm. The threshold $δ_{\text{NN}}$ is determined by the following scenario. Training first visits points for which the gradient of the empirical risk is large and learns the directions spanned by these gradients. Then the gradient becomes smaller and the dynamics becomes dominated by negative directions of the Hessian. The threshold $δ_{\text{NN}}$ corresponds to a phase transition in the spectrum of the Hessian in this second phase.
- Abstract(参考訳): 一般的な視点では、ニューラルネットワークはまず低次元の表現を識別してデータから学び、その後、この分野の最良のモデルに適合する。
最近の研究は、マルチインデックスモデルを学ぶ際に、この現象の形式化を提供する。
この設定では、$n$ i.i.d. pairs $({\boldsymbol x}_i,y_i)$, ここで、共変ベクトル ${\boldsymbol x}_i\in\mathbb{R}^d$ は等方的であり、応答 $y_i$ は $k$-次元射影 ${\boldsymbol x}_i$ によってのみ ${\boldsymbol x}_i$ に依存する。
特徴学習は、${\boldsymbol s}_*$で区切られた潜在空間を学ぶことにつながる。
この文脈では、比例漸近s$n,d\to\infty$,$n/d\toδ$の下での2層ニューラルネットワークの勾配勾配ダイナミクスについて検討する一方、潜伏空間$k$と隠れニューロン数$m$は固定される。
以前の研究は、$δ> δ_{\text{alg}}$, for $δ_{\text{alg}}$がデータ分布に依存するしきい値であり、$δ_{\text{alg}}$以下では(あるアルゴリズムのクラスで)不可能である場合、多項式時間アルゴリズムによる特徴学習が可能であることを証明している。
ここでは、2層ネットワークに対する類似しきい値$δ_{\text{NN}}$を導出する。
δ_{\text{NN}}$の特徴づけは、ネットワークアーキテクチャとトレーニングアルゴリズムへの学習力学の依存を研究する方法を開く。
閾値$δ_{\text{NN}}$は以下のシナリオによって決定される。
トレーニングファーストは、経験的リスクの勾配が大きい点を訪れ、これらの勾配にまたがる方向を学ぶ。
すると勾配は小さくなり、力学はヘッセンの負の方向によって支配される。
閾値$δ_{\text{NN}}$は、この第2相におけるヘッセンスペクトルの位相遷移に対応する。
関連論文リスト
- Neural Networks Learn Generic Multi-Index Models Near Information-Theoretic Limit [66.20349460098275]
一般ガウス多次元モデル $f(boldsymbolx)=g(boldsymbolUboldsymbolx)$ の勾配降下学習を隠蔽部分空間 $boldsymbolUin mathbbRrtimes d$ で研究する。
リンク関数上の一般的な非退化仮定の下では、層次勾配勾配勾配によって訓練された標準的な2層ニューラルネットワークは、$o_d(1)$テスト誤差でターゲットを不可知的に学習できることを示す。
論文 参考訳(メタデータ) (2025-11-19T04:46:47Z) - Emergence and scaling laws in SGD learning of shallow neural networks [64.48316762675141]
等方性ガウスデータに基づいてP$ニューロンを持つ2層ニューラルネットワークを学習するためのオンライン勾配降下(SGD)の複雑さについて検討した。
平均二乗誤差(MSE)を最小化するために,学生2層ネットワークのトレーニングのためのSGDダイナミックスを高精度に解析する。
論文 参考訳(メタデータ) (2025-04-28T16:58:55Z) - Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の勾配勾配勾配学習問題について検討する。
SGDに基づくアルゴリズムにより最適化された2層ニューラルネットワークは、情報指数に支配されない複雑さで$f_*$を学習する。
論文 参考訳(メタデータ) (2024-06-03T17:56:58Z) - Neural Networks Efficiently Learn Low-Dimensional Representations with
SGD [22.703825902761405]
SGDで訓練されたReLU NNは、主方向を回復することで、$y=f(langleboldsymbolu,boldsymbolxrangle) + epsilon$という形の単一インデックスターゲットを学習できることを示す。
また、SGDによる近似低ランク構造を用いて、NNに対して圧縮保証を提供する。
論文 参考訳(メタデータ) (2022-09-29T15:29:10Z) - High-dimensional Asymptotics of Feature Learning: How One Gradient Step
Improves the Representation [89.21686761957383]
2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。
我々の結果は、一つのステップでもランダムな特徴に対してかなりの優位性が得られることを示した。
論文 参考訳(メタデータ) (2022-05-03T12:09:59Z) - Learning Over-Parametrized Two-Layer ReLU Neural Networks beyond NTK [58.5766737343951]
2層ニューラルネットワークを学習する際の降下のダイナミクスについて考察する。
過度にパラメータ化された2層ニューラルネットワークは、タンジェントサンプルを用いて、ほとんどの地上で勾配損失を許容的に学習できることを示す。
論文 参考訳(メタデータ) (2020-07-09T07:09:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。