論文の概要: Completed Hyperparameter Transfer across Modules, Width, Depth, Batch and Duration
- arxiv url: http://arxiv.org/abs/2512.22382v1
- Date: Fri, 26 Dec 2025 20:56:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.019717
- Title: Completed Hyperparameter Transfer across Modules, Width, Depth, Batch and Duration
- Title(参考訳): モジュール, 幅, 深さ, バッチ, 時間間での完全なハイパーパラメータ移動
- Authors: Bruno Mlodozeniec, Pierre Ablin, Louis Béthune, Dan Busbridge, Michal Klein, Jason Ramapuram, Marco Cuturi,
- Abstract要約: モデルサイズを小さくして最適なグローバルベースハイパーパラメータを探索し,大規模に転送する方法を示す。
実験により,大規模言語モデルにおける学習速度の大幅な向上が示された。
- 参考スコア(独自算出の注目度): 40.02031646222292
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hyperparameter tuning can dramatically impact training stability and final performance of large-scale models. Recent works on neural network parameterisations, such as $μ$P, have enabled transfer of optimal global hyperparameters across model sizes. These works propose an empirical practice of search for optimal global base hyperparameters at a small model size, and transfer to a large size. We extend these works in two key ways. To handle scaling along most important scaling axes, we propose the Complete$^{(d)}$ Parameterisation that unifies scaling in width and depth -- using an adaptation of CompleteP -- as well as in batch-size and training duration. Secondly, with our parameterisation, we investigate per-module hyperparameter optimisation and transfer. We characterise the empirical challenges of navigating the high-dimensional hyperparameter landscape, and propose practical guidelines for tackling this optimisation problem. We demonstrate that, with the right parameterisation, hyperparameter transfer holds even in the per-module hyperparameter regime. Our study covers an extensive range of optimisation hyperparameters of modern models: learning rates, AdamW parameters, weight decay, initialisation scales, and residual block multipliers. Our experiments demonstrate significant training speed improvements in Large Language Models with the transferred per-module hyperparameters.
- Abstract(参考訳): ハイパーパラメータチューニングは、大規模モデルのトレーニング安定性と最終的なパフォーマンスに劇的に影響を与える。
近年の$μ$Pのようなニューラルネットワークパラメータ化の研究により、モデルサイズを越えた最適な大域的ハイパーパラメータの転送が可能になった。
これらの研究は、小さなモデルサイズで最適なグローバルベースハイパーパラメータを探索し、より大きなサイズに転送する経験的手法を提案する。
これらの作業を2つの重要な方法で拡張します。
最も重要なスケーリング軸に沿ったスケーリングを処理するために、Complete$^{(d)}$パラメータ化を提案します。
第2に、パラメータ化により、モジュールごとのハイパーパラメータ最適化と転送について検討する。
本研究では,高次元ハイパーパラメータランドスケープをナビゲートする経験的課題を特徴づけ,この最適化問題に取り組むための実践的ガイドラインを提案する。
適切なパラメータ化により、モジュールごとのハイパーパラメータ状態においてもハイパーパラメータ転送が保たれることを示す。
本研究は,学習率,AdamWパラメータ,体重減少,初期化スケール,残留ブロック乗算器など,現代モデルの幅広い最適化ハイパーパラメータをカバーしている。
本実験は,モジュールごとのハイパーパラメータを変換した大規模言語モデルにおいて,トレーニング速度が大幅に向上したことを示す。
関連論文リスト
- Predictable Scale: Part I, Step Law -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining [59.369484219304866]
我々は100兆のトークンをスクラッチから3,700以上の大規模言語モデル(LLM)に対する前例のない経験的調査訓練を実施している。
ステップ法則(ステップ法)と呼ばれる,LLM事前学習におけるハイパーパラメータ最適化のための普遍的スケーリング法則を確立する。
我々の推定オプティマは, 排他的探索によって得られた世界最高の性能から, テストセットの0.094%しか逸脱しない。
論文 参考訳(メタデータ) (2025-03-06T18:58:29Z) - Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。
私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。
最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文 参考訳(メタデータ) (2024-07-08T12:32:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。