論文の概要: Deriving Hyperparameter Scaling Laws via Modern Optimization Theory
- arxiv url: http://arxiv.org/abs/2603.15958v1
- Date: Mon, 16 Mar 2026 22:21:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.015296
- Title: Deriving Hyperparameter Scaling Laws via Modern Optimization Theory
- Title(参考訳): 現代最適化理論によるハイパーパラメータスケーリング法則の導出
- Authors: Egor Shulgin, Dimitri von Rütte, Tianyue H. Zhang, Niccolò Ajroldi, Bernhard Schölkopf, Antonio Orvieto,
- Abstract要約: 線形最小化Oracle(LMO)に基づく手法の最近の一階境界について検討する。
近年の文献のバウンダリをプロキシとして扱い、異なるチューニング規則をまたいでそれらを最小化することで、学習率、運動量、バッチサイズに関するクローズドフォームのパワーロースケジュールが得られる。
本研究の結果は, 運動量とバッチサイズスケーリングの相互作用に特に注意を払っており, いくつかのスケーリング戦略によって最適性能が達成される可能性が示唆された。
- 参考スコア(独自算出の注目度): 55.63126290312615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hyperparameter transfer has become an important component of modern large-scale training recipes. Existing methods, such as muP, primarily focus on transfer between model sizes, with transfer across batch sizes and training horizons often relying on empirical scaling rules informed by insights from timescale preservation, quadratic proxies, and continuous-time approximations. We study hyperparameter scaling laws for modern first-order optimizers through the lens of recent convergence bounds for methods based on the Linear Minimization Oracle (LMO), a framework that includes normalized SGD, signSGD (approximating Adam), and Muon. Treating bounds in recent literature as a proxy and minimizing them across different tuning regimes yields closed-form power-law schedules for learning rate, momentum, and batch size as functions of the iteration or token budget. Our analysis, holding model size fixed, recovers most insights and observations from the literature under a unified and principled perspective, with clear directions open for future research. Our results draw particular attention to the interaction between momentum and batch-size scaling, suggesting that optimal performance may be achieved with several scaling strategies.
- Abstract(参考訳): ハイパーパラメータ転送は、現代の大規模トレーニングレシピの重要な構成要素となっている。
muPのような既存の手法は、主にモデルサイズ間の転送に重点を置いており、バッチサイズをまたいだ転送やトレーニングの地平線は、時間スケール保存、二次プロキシ、連続時間近似からの洞察から得られる経験的なスケーリングルールに依存していることが多い。
線形最小化Oracle (LMO) に基づく手法の収束バウンダリのレンズを用いて, 現代の一階最適化器のハイパーパラメータスケーリング法則について検討した。
近年の文献のバウンダリをプロキシとして扱い、異なるチューニング体制でそれらを最小化することで、反復やトークン予算の関数として学習率、運動量、バッチサイズのためのクローズドフォームのパワーロースケジュールが得られる。
我々の分析は、モデルのサイズを固定し、統一的で原則的な視点で文献から多くの洞察と観察を回収し、将来の研究に向けて明確な方向を開いている。
本研究の結果は, 運動量とバッチサイズスケーリングの相互作用に特に注意を払っており, いくつかのスケーリング戦略によって最適性能が達成される可能性が示唆された。
関連論文リスト
- $μ$pscaling small models: Principled warm starts and hyperparameter transfer [30.73409211009394]
本稿では,幅広いアーキテクチャやアーキテクチャに適用可能な,原則付きアップスケーリング手法を提案する。
本研究では,本手法が現実的なデータセットやアーキテクチャに有効であることを実証的に示す。
論文 参考訳(メタデータ) (2026-02-11T05:37:22Z) - How to Set the Learning Rate for Large-Scale Pre-training? [73.03133634525635]
我々はこの調査を2つの異なる研究パラダイムであるフィッティングとトランスファーに定式化する。
フィッティングパラダイムでは,探索係数のスケーリング法則を導入し,O(n3) から O(n*C_D*C_) への探索複雑性を予測モデルにより効果的に低減する。
我々は、$Transferの原則をMixture of Experts (MoE)アーキテクチャに拡張し、モデル深さ、重量減衰、トークン水平線を含む適用範囲を広げる。
論文 参考訳(メタデータ) (2026-01-08T15:55:13Z) - Merging Models on the Fly Without Retraining: A Sequential Approach to Scalable Continual Model Merging [75.93960998357812]
ディープモデルマージ(Deep Modelmerging)は、複数の微調整モデルを組み合わせて、さまざまなタスクやドメインにまたがる能力を活用する、新たな研究方向を示すものだ。
現在のモデルマージ技術は、全ての利用可能なモデルを同時にマージすることに集中しており、重量行列に基づく手法が主要なアプローチである。
本稿では,モデルを逐次処理するトレーニングフリーなプロジェクションベース連続マージ手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T13:17:24Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。