論文の概要: A Proof of Learning Rate Transfer under $μ$P
- arxiv url: http://arxiv.org/abs/2511.01734v1
- Date: Mon, 03 Nov 2025 16:45:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.330528
- Title: A Proof of Learning Rate Transfer under $μ$P
- Title(参考訳): $μ$P以下の学習率伝達の証明
- Authors: Soufiane Hayou,
- Abstract要約: 線形多層パーセプトロン(MLP)において,$mu$Pでパラメトリケートされた幅の学習率伝達の最初の証明を提供する。
我々は、$mu P$未満では、幅が無限に近づくにつれて、最適学習率はエンフェノンゼロ定数に収束することを示した。
- 参考スコア(独自算出の注目度): 11.438864291100225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We provide the first proof of learning rate transfer with width in a linear multi-layer perceptron (MLP) parametrized with $\mu$P, a neural network parameterization designed to ``maximize'' feature learning in the infinite-width limit. We show that under $\mu P$, the optimal learning rate converges to a \emph{non-zero constant} as width goes to infinity, providing a theoretical explanation to learning rate transfer. In contrast, we show that this property fails to hold under alternative parametrizations such as Standard Parametrization (SP) and Neural Tangent Parametrization (NTP). We provide intuitive proofs and support the theoretical findings with extensive empirical results.
- Abstract(参考訳): 線形多層パーセプトロン (MLP) において, 無限幅限界における特徴学習の「最大化」を目的としたニューラルネットワークパラメータ化である$\mu$P をパラメタ化して, 幅の幅で学習率伝達を初めて証明する。
最適学習率が$\mu P$の下では、幅が無限に近づくにつれて、最適学習率は \emph{non-zero constant} に収束し、学習速度伝達の理論的な説明を与える。
対照的に、この性質は標準パラメトリゼーション(SP)やニューラルタンジェントパラメトリゼーション(NTP)のような代替パラメトリゼーションでは保持できない。
我々は直感的な証明を提供し、広範な実験結果で理論的な結果を支持する。
関連論文リスト
- Test time training enhances in-context learning of nonlinear functions [51.56484100374058]
テストタイムトレーニング(TTT)は、各予測に先立って指定されたパラメータを明示的に更新することで、モデル性能を向上させる。
本研究では,TTTとテキスト内学習(ICL)の組み合わせについて検討する。
論文 参考訳(メタデータ) (2025-09-30T03:56:44Z) - Global Convergence and Rich Feature Learning in $L$-Layer Infinite-Width Neural Networks under $μ$P Parametrization [66.03821840425539]
本稿では, テンソル勾配プログラム(SGD)フレームワークを用いた$L$層ニューラルネットワークのトレーニング力学について検討する。
SGDにより、これらのネットワークが初期値から大きく逸脱する線形独立な特徴を学習できることを示す。
このリッチな特徴空間は、関連するデータ情報をキャプチャし、トレーニングプロセスの収束点が世界最小であることを保証する。
論文 参考訳(メタデータ) (2025-03-12T17:33:13Z) - Constructive Universal Approximation and Finite Sample Memorization by Narrow Deep ReLU Networks [0.0]
我々は$N$の異なる点を持つデータセットが$mathbbRd$と$M$の出力クラスを正確に分類できることを示した。
また、任意の有界領域に対して$Lp(Omega; mathbbRm)$の普遍近似定理も証明する。
我々の結果は、深層ニューラルネットワークにおける制御性、表現性、およびトレーニングのダイナミクスを接続する統一的で解釈可能なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-09-10T14:31:21Z) - Super Consistency of Neural Network Landscapes and Learning Rate Transfer [72.54450821671624]
我々は、失われたヘッセンのレンズを通して風景を研究する。
我々は、$mu$P のスペクトル特性がネットワークの大きさに大きく依存していることを発見した。
ニューラルタンジェントカーネル(NTK)や他のスケーリングシステムでは、シャープネスは異なるスケールで非常に異なるダイナミクスを示す。
論文 参考訳(メタデータ) (2024-02-27T12:28:01Z) - Tensor Programs VI: Feature Learning in Infinite-Depth Neural Networks [42.14352997147652]
深い残留ネットワーク(resnets)の*depthwise parametrization*の類似分類について検討する。
各ブロックが1つの層しか持たないresnetでは、Depth-$mu$Pと呼ばれる一意な最適パラメトリゼーションを同定する。
We found that Depth-$mu$P can be characterized as maximize feature learning and feature diversity。
論文 参考訳(メタデータ) (2023-10-03T17:50:40Z) - The Onset of Variance-Limited Behavior for Networks in the Lazy and Rich
Regimes [75.59720049837459]
無限幅挙動からこの分散制限状態への遷移をサンプルサイズ$P$とネットワーク幅$N$の関数として検討する。
有限サイズ効果は、ReLUネットワークによる回帰のために、$P* sim sqrtN$の順序で非常に小さなデータセットに関係があることが分かる。
論文 参考訳(メタデータ) (2022-12-23T04:48:04Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - Feature Learning in Infinite-Width Neural Networks [17.309380337367536]
ニューラルネットワークの標準およびNTKパラメトリゼーションは、特徴を学習できる無限幅制限を認めないことを示す。
本稿では,標準パラメトリゼーションの簡易な修正を提案し,その限界における特徴学習を実現する。
論文 参考訳(メタデータ) (2020-11-30T03:21:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。