論文の概要: Weight Decay may matter more than muP for Learning Rate Transfer in Practice
- arxiv url: http://arxiv.org/abs/2510.19093v1
- Date: Tue, 21 Oct 2025 21:36:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.729902
- Title: Weight Decay may matter more than muP for Learning Rate Transfer in Practice
- Title(参考訳): 体重減少は、実践における学習率伝達のmP以上の意味があるかもしれない
- Authors: Atli Kosson, Jeremy Welborn, Yang Liu, Martin Jaggi, Xi Chen,
- Abstract要約: muPのスケーリングルールは、層内の入力の幾何的アライメントに関する強い仮定と、その重みと勾配の更新に依存していることを示す。
トレーニングの残り期間は、幅にまたがる内部表現の更新ダイナミクスを正しく安定化する muP よりも重量減衰である。
このことは、muPのスケーリングが主に暗黙の学習率ウォームアップの形で機能し、修正されたウォームアップスケジュールで大きく置き換えることが可能であることを示唆している。
- 参考スコア(独自算出の注目度): 43.243484751818066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transferring the optimal learning rate from small to large neural networks can enable efficient training at scales where hyperparameter tuning is otherwise prohibitively expensive. To this end, the Maximal Update Parameterization (muP) proposes a learning rate scaling designed to keep the update dynamics of internal representations stable across different model widths. However, the scaling rules of muP rely on strong assumptions, particularly about the geometric alignment of a layer's inputs with both its weights and gradient updates. In this large-scale empirical investigation, we show that these assumptions hold only briefly at the start of training in the practical setups where learning rate transfer is most valuable, such as LLM training. For the remainder of training it is weight decay rather than muP that correctly stabilizes the update dynamics of internal representations across widths, facilitating learning rate transfer. This suggests muP's scaling primarily acts as a form of implicit learning rate warmup, allowing us to largely replace it with modified warmup schedules. Together these findings fundamentally challenge prevailing beliefs about learning rate transfer and can explain empirical practice such as why muP requires the independent weight decay variant for successful transfer.
- Abstract(参考訳): 小さなニューラルネットワークから大規模なニューラルネットワークへの最適な学習率の転送は、ハイパーパラメータチューニングが違法に高価なスケールでの効率的なトレーニングを可能にする。
この目的のために、最大更新パラメータ(muP)は、異なるモデル幅にわたって内部表現の更新ダイナミクスを安定に保つために設計された学習率スケーリングを提案する。
しかし、muPのスケーリング規則は強い仮定、特に重み付けと勾配更新の両方で層の入力の幾何的アライメントに依存している。
この大規模実証実験では、これらの仮定は、LLMトレーニングのような学習率の伝達が最も価値のある実践的な設定において、訓練開始時にのみ短期間にしか保たないことが示されている。
トレーニングの残りの部分では、MuPよりも重量減衰であり、幅にまたがる内部表現の更新ダイナミクスを正しく安定化し、学習率の伝達を容易にする。
これは、muPのスケーリングが主に暗黙の学習率ウォームアップの形で機能し、変更したウォームアップスケジュールに大きく置き換えることが可能であることを示唆している。
これらの知見は、学習率の伝達に関する一般的な信念に根本的に挑戦し、なぜmPが独立した重量減衰変種を必要とするのかといった経験的実践を説明することができる。
関連論文リスト
- Unveiling the Role of Learning Rate Schedules via Functional Scaling Laws [9.332823269318842]
スケーリング法は、大規模言語モデル(LLM)のトレーニングを導く上で、基礎的な役割を担っている。
本稿では,一般LSSの訓練過程における集団リスクの進化を特徴付ける機能スケーリング法を紹介する。
我々は、データ限定型と計算限定型の両方の条件下で、広く使われている3つのLSS(定数、指数減衰、ウォームアップ安定デカイ(WSD))を分析した。
論文 参考訳(メタデータ) (2025-09-23T16:05:16Z) - Pay Attention to Small Weights [26.613296190219103]
NanoADAMは、微調整中に小さなマグニチュードのみを動的に更新する。
これは、事前訓練中に学んだ重要な特徴をエンコードする可能性が高い、大きなマグニチュードの重量を保存する。
論文 参考訳(メタデータ) (2025-06-26T15:22:55Z) - CLASSP: a Biologically-Inspired Approach to Continual Learning through Adjustment Suppression and Sparsity Promotion [0.0]
本稿では,適応抑制・分散促進(CLASSP)による継続学習という新しい学習手法を提案する。
CLASSPは神経科学、特にシナプス伝達と長期増強の文脈で観察される2つの主要な原理に基づいている。
Elastic Weight Consolidation (EWC)データセットと比較すると、CLASSPは精度とメモリフットプリントの点で優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-04-29T13:31:00Z) - Rotational Equilibrium: How Weight Decay Balances Learning Across Neural Networks [33.88586668321127]
本研究は,ディープニューラルネットワークにおける個々のニューロンの更新挙動に重み劣化が及ぼす影響について検討する。
本研究では, 回転を明示的に制御することで, 重量減衰の利点が得られ, 学習率のウォームアップを著しく低減できることを示した。
論文 参考訳(メタデータ) (2023-05-26T19:14:01Z) - Meta-Learning Fast Weight Language Models [105.66999854213724]
我々は、動的評価の利点をより効率的に提供するニューラルネットワークコンポーネントであるFWL(Fast Weight Layers)を提示する。
FWLはトレーニング時に適用でき、モデルが勾配更新をうまく活用することを学ぶ。
論文 参考訳(メタデータ) (2022-12-05T18:37:09Z) - Rethinking Importance Weighting for Transfer Learning [71.81262398144946]
教師あり学習における主要な前提は、トレーニングとテストデータが同じ確率分布に従うことである。
現実の機械学習タスクはますます複雑になりつつあるため、このような課題に対処するための新しいアプローチが検討されている。
論文 参考訳(メタデータ) (2021-12-19T14:35:25Z) - RIFLE: Backpropagation in Depth for Deep Transfer Learning through
Re-Initializing the Fully-connected LayEr [60.07531696857743]
事前訓練されたモデルを用いたディープ畳み込みニューラルネットワーク(CNN)の微調整は、より大きなデータセットから学習した知識をターゲットタスクに転送するのに役立つ。
転送学習環境におけるバックプロパゲーションを深める戦略であるRIFLEを提案する。
RIFLEは、深いCNN層の重み付けに意味のあるアップデートをもたらし、低レベルの機能学習を改善する。
論文 参考訳(メタデータ) (2020-07-07T11:27:43Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。