論文の概要: Robust Layerwise Scaling Rules by Proper Weight Decay Tuning
- arxiv url: http://arxiv.org/abs/2510.15262v1
- Date: Fri, 17 Oct 2025 02:58:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.450379
- Title: Robust Layerwise Scaling Rules by Proper Weight Decay Tuning
- Title(参考訳): 適切な減量調整によるロバスト層スケーリングルール
- Authors: Zhiyuan Fan, Yifeng Liu, Qingyue Zhao, Angela Yuan, Quanquan Gu,
- Abstract要約: 現代のスケール不変アーキテクチャでは、トレーニングは急速に劣化したグラデーション状態に入る。
我々は,AdamWに対して,幅をまたいだサブ層ゲインを保ったウェイトデカイスケーリングルールを導入する。
この結果は,パラメータが設定した定常スケールを明示的に制御することにより,ほぼ入出力体制を超えて$mu$Pを拡大する。
- 参考スコア(独自算出の注目度): 50.11170157029911
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Empirical scaling laws prescribe how to allocate parameters, data, and compute, while maximal-update parameterization ($\mu$P) enables learning-rate transfer across widths by equalizing early-time update magnitudes. However, in modern scale-invariant architectures, training quickly enters an optimizer-governed steady state where normalization layers create backward scale sensitivity and the effective learning rate becomes width dependent, degrading $\mu$P transfer. We address this by introducing a weight-decay scaling rule for AdamW that preserves sublayer gain across widths. Empirically, the singular-value spectrum of each matrix parameter scales in norm as $\sqrt{\eta/\lambda}$ with an approximately invariant shape; under width scaling $d$, we observe that the top singular value scales approximately as $\sqrt{\eta/\lambda}\cdot d^{0.75}$. Combining this observation with the $\mu$P learning-rate rule $\eta_2\propto d^{-1}$ for matrix-like parameters implies an empirical weight-decay scaling rule $\lambda_2\propto \sqrt{d}$ that approximately keeps sublayer gains width invariant. Together with vector-like parameters trained at $\eta_1=\Theta_d(1)$ and $\lambda_1=0$, this yields \emph{zero-shot} transfer of both learning rate and weight decay from proxy to target widths, removing per-width sweeps. We validate the rule on LLaMA-style Transformers and in a minimal synthetic setting, and we provide a simple diagnostic, matching top singular values, to check sublayer-gain invariance. Our results extend $\mu$P beyond the near-init regime by explicitly controlling steady-state scales set by the optimizer, offering a practical recipe for width-robust hyperparameter transfer under AdamW.
- Abstract(参考訳): 経験的スケーリング法則はパラメータ、データ、計算の割り当て方法を規定する一方、最大更新パラメータ化(\mu$P)は、早期更新の規模を等しくすることで、幅をまたいだ学習レートの転送を可能にする。
しかし、現代のスケール不変アーキテクチャでは、トレーニングはすぐに最適化された定常状態に入り、正規化層は後方スケールの感度を発生させ、効果的な学習速度は幅に依存するようになり、$\mu$P転送が低下する。
我々は,AdamWに対して,幅をまたいだサブレイヤゲインを保ったウェイトデカイスケーリングルールを導入することで,この問題に対処する。
経験的に、各行列パラメータの特異値スペクトルは、ほぼ不変な形でノルムでスケールする:$\sqrt{\eta/\lambda}$; 幅スケーリング$d$では、最上位特異値はおよそ$\sqrt{\eta/\lambda}\cdot d^{0.75}$となる。
この観察と、行列のようなパラメータに対する $\eta_2\propto d^{-1}$ の学習レートルールとを組み合わせると、経験的ウェイトデカイスケーリングルール $\lambda_2\propto \sqrt{d}$ は、サブレイヤーの幅をほぼ不変に保つ。
$\eta_1=\Theta_d(1)$と$\lambda_1=0$でトレーニングされたベクトルのようなパラメータとともに、学習速度とウェイト崩壊の両方をプロキシからターゲットの幅に転送し、幅ごとのスイープを削除する。
我々はLLaMA方式のトランスフォーマーと最小限の合成条件でルールを検証し、サブ層ゲインの不変性をチェックするための単純な診断と一致した最高特異値を提供する。
我々は,最適化器が設定した定常スケールを明示的に制御し,AdamWの下での幅ローブなハイパーパラメータ転送の実践的レシピを提供することにより,近入政権を超えて$\mu$Pを拡大した。
関連論文リスト
- Parameter-free Algorithms for the Stochastically Extended Adversarial Model [59.81852138768642]
拡張逆数(SEA)モデルの既存のアプローチは、ドメインの直径$D$や損失関数のリプシッツ定数$G$といった問題固有のパラメータの事前知識を必要とする。
パラメータを不要にするためにOptimistic Online Newton Step (OONS) アルゴリズムを利用するパラメータフリー手法を開発した。
論文 参考訳(メタデータ) (2025-10-06T10:53:37Z) - Arithmetic-Mean $μ$P for Modern Architectures: A Unified Learning-Rate Scale for CNNs and ResNets [9.94514344279733]
Arithmetic-Mean $mu$P は個々の層ではなく、ネットワーク全体の平均1ステップのプレアクティベーション第2モーメントを一定スケールに制限する。
1次元および2次元の畳み込みネットワークの場合、最大更新学習率は$etastar(L)propto L-3/2$; を満足する。
論文 参考訳(メタデータ) (2025-10-05T19:22:50Z) - Scaling Up Liquid-Resistance Liquid-Capacitance Networks for Efficient Sequence Modeling [50.994194925685434]
LrcSSMは$textitnon-linear$リカレントモデルで、現在の線形状態空間層と同じくらい高速に長いシーケンスを処理する。
ヤコビ行列を対角線に強制することにより、全列を並列に解くことができる。
LrcSSMは、Liquid-S4のような他の入力変化系が提供しないことを保証する形式的な勾配安定性を提供する。
論文 参考訳(メタデータ) (2025-05-27T20:02:59Z) - FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA [61.79405341803085]
低ランク適応(LoRA)は、フェデレートラーニング(FL)における言語モデルの効率的な微調整に広く用いられている。
低ランク適応(LoRA)は、フェデレートラーニング(FL)における言語モデルの効率的な微調整に広く用いられている。
論文 参考訳(メタデータ) (2025-05-19T07:32:56Z) - Improved Algorithm for Adversarial Linear Mixture MDPs with Bandit
Feedback and Unknown Transition [71.33787410075577]
線形関数近似,未知遷移,および逆損失を用いた強化学習について検討した。
我々は高い確率で$widetildeO(dsqrtHS3K + sqrtHSAK)$ regretを実現する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:03:50Z) - A Novel Sparse Regularizer [0.0]
本稿では,最適化時にモデルに適用されるエントロピーの新たな尺度を最小化する正規化器を提案する。
微分可能で、単純で高速で計算し、スケール不変であり、簡単な量の追加メモリを必要とし、容易に並列化できる。
論文 参考訳(メタデータ) (2023-01-18T03:17:36Z) - Robust Training of Neural Networks using Scale Invariant Architectures [70.67803417918854]
SGDとは対照的に、Adamのような適応勾配法は、現代のディープネットワークの堅牢なトレーニングを可能にする。
この一般的なアプローチは、パラメータと損失の再スケーリングに頑健であることを示す。
我々は、単にバニラSGDで訓練された場合、Adamのような適応的な手法で訓練されたBERTに匹敵する性能を達成する、SIBERTと呼ばれるスケール不変バージョンのBERTを設計する。
論文 参考訳(メタデータ) (2022-02-02T11:58:56Z) - Large-time asymptotics in deep learning [0.0]
トレーニングにおける最終時間の$T$(対応するResNetの深さを示す可能性がある)の影響について検討する。
古典的な$L2$-正規化経験的リスク最小化問題に対して、トレーニングエラーが$mathcalOleft(frac1Tright)$のほとんどであることを示す。
$ellp$-距離損失の設定において、トレーニングエラーと最適パラメータの両方が$mathcalOleft(e-mu)の順序のほとんどであることを示す。
論文 参考訳(メタデータ) (2020-08-06T07:33:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。