論文の概要: Quantifying Hyperparameter Transfer and the Importance of Embedding Layer Learning Rate
- arxiv url: http://arxiv.org/abs/2605.21486v1
- Date: Wed, 20 May 2026 17:59:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.837663
- Title: Quantifying Hyperparameter Transfer and the Importance of Embedding Layer Learning Rate
- Title(参考訳): ハイパーパラメータ転送の定量化と埋め込み層学習の重要性
- Authors: Dayal Singh Kalra, Maissam Barkeshli,
- Abstract要約: 我々は、Maximal Update($P)が標準パラメータ化と比較して高品質な学習率転送を提供することを示した。
標準パラメータ化に対する$Pの圧倒的な利点は、埋め込み層の学習率を最大化することにある。
- 参考スコア(独自算出の注目度): 10.599439539657787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hyperparameter transfer allows extrapolating optimal optimization hyperparameters from small to large scales, making it critical for training large language models (LLMs). This is done either by fitting a scaling law to the hyperparameters or by a judicious choice of parameterization, such as Maximal Update ($μ$P), that renders optimal hyperparameters approximately scale invariant. In this paper, we first develop a framework to quantify hyperparameter transfer through three metrics: (1) the quality of the scaling law fit, (2) the robustness to extrapolation errors, and (3) the asymptotic loss penalty due to choice of parameterization. Next, we investigate through a comprehensive series of ablations why $μ$P appears to offer high-quality learning rate transfer relative to standard parameterization (SP), as existing theory is inadequate. We find that the overwhelming benefit of $μ$P relative to SP when training with AdamW arises simply from maximizing the learning rate of the embedding layer. In SP, the embedding layer learning rate acts as a bottleneck that induces training instabilities; increasing it by a factor of width to match $μ$P dramatically smooths out training while improving hyperparameter transfer. We also find that weight decay improves the scaling law fits, while, in the fixed token-per-parameter setting, it hurts the robustness of the extrapolation.
- Abstract(参考訳): ハイパーパラメータ転送により、小さなものから大規模なものまで最適化されたハイパーパラメータの外挿が可能となり、大きな言語モデル(LLM)のトレーニングに欠かせない。
これは、スケーリング法則をハイパーパラメータに適合させるか、最大更新(μ$P)のようなパラメータ化の法則的な選択によって行われる。
本稿ではまず,(1)スケーリング法則の品質,(2)外挿誤差に対する堅牢性,(3)パラメータ化の選択による漸近的損失ペナルティの3つの指標によるハイパーパラメータ移動の定量化フレームワークを開発する。
次に、μ$Pが標準パラメタライゼーション(SP)と比較して高品質な学習率の伝達を提供すると考えられる理由を、既存の理論が不十分であるとして、包括的に検討する。
我々は,AdamW を用いた学習において,組込み層の学習速度を最大化することによる SP に対する$μ$P の圧倒的な利点を見出した。
SPでは、埋め込み層学習率は、トレーニング不安定性を誘導するボトルネックとして機能し、μ$Pの幅を拡大することで、ハイパーパラメータ転送を改善しながら、トレーニングを劇的にスムーズにする。
また、重み減衰はスケーリング法則の適合性を改善するが、固定されたトークン/パラメータ設定では外挿の堅牢性に悪影響を及ぼす。
関連論文リスト
- Rethinking Language Model Scaling under Transferable Hypersphere Optimization [67.38433364607897]
モデル幅、深さ、トレーニングトークン、エキスパート・オブ・エキスパート(MoE)間で最適な学習率を転送する最初のフレームワークであるHyperPを紹介します。
単一のベースレートでHyperPの計算予算をまたいだデータ転送を調整し、強力な Muon ベースラインを 6times1021$ FLOPs で1.58 タイムで達成した。
また、超球面制約から派生したMoEゲーティング機構であるSqrtGateを提案し、MoEの粒度にわたって出力RMSを保存する。
論文 参考訳(メタデータ) (2026-03-30T17:51:47Z) - ECO: Quantized Training without Full-Precision Master Weights [58.97082407934466]
Error-Compensating (ECO)は、量子化されたパラメータに直接更新を適用することで、マスターウェイトを除去する。
ECO は最適値の定数半径近傍に収束するが、素早いマスターウェイト除去は学習率に逆比例する誤差を生じさせる。
論文 参考訳(メタデータ) (2026-01-29T18:35:01Z) - Completed Hyperparameter Transfer across Modules, Width, Depth, Batch and Duration [40.02031646222292]
モデルサイズを小さくして最適なグローバルベースハイパーパラメータを探索し,大規模に転送する方法を示す。
実験により,大規模言語モデルにおける学習速度の大幅な向上が示された。
論文 参考訳(メタデータ) (2025-12-26T20:56:04Z) - Generative Bayesian Hyperparameter Tuning [0.0]
クロスバリデーションは大規模では計算が禁止されることが多いが、後方サンプリングのコストのため完全にベイズ的ハイパーパラメータ学習は困難である。
我々は, (i) ランダム化, 重み付けされた目的(重み付けされたベイズブートストラップ) と (ii) ハイパーパラメータ設定の繰り返し最適化による, ベイズ後部への最適化に基づく近似の2つの考え方を組み合わせた生成的視点を開発する。
論文 参考訳(メタデータ) (2025-12-23T05:00:52Z) - Hyperparameter Transfer Enables Consistent Gains of Matrix-Preconditioned Optimizers Across Scales [55.91454326946738]
学習速度と減量率の最適化は,幅広い言語に対して,モデルの幅と深さでどのようにスケールするかを検討する。
我々は、$Pによる学習率のスケーリングは転送を改善するが、それでもかなりの有限幅偏差に悩まされる可能性があることを見出した。
計算-最適スケーリングでは、独立したウェイト崩壊が1/mathrmwidth$で言語間でほぼ最適であることが分かる。
論文 参考訳(メタデータ) (2025-12-05T11:03:41Z) - Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。
私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。
最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文 参考訳(メタデータ) (2024-07-08T12:32:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。