論文の概要: Predictable Scaling Laws of Optimal Hyperparameters for LLM Continued Pre-training
- arxiv url: http://arxiv.org/abs/2606.05610v1
- Date: Thu, 04 Jun 2026 02:32:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.499052
- Title: Predictable Scaling Laws of Optimal Hyperparameters for LLM Continued Pre-training
- Title(参考訳): LLM事前学習における最適ハイパーパラメータの予測可能なスケーリング法則
- Authors: Yongwei Zhou, Juncheng Diao, Junlin Shang, Peiguang Li, Rongxiang Weng,
- Abstract要約: 本稿では,所定のチェックポイントに対して,計算予算と最適ハイパーパラメータの関係を確立するための新しいフレームワークを提案する。
提案手法は,高パラメータ探索のオーバーヘッドを最大90%削減すると同時に,ベースラインに対して同等あるいは優れた性能を実現する。
このモデルに依存しないフレームワークはアーキテクチャをまたいで一般化し、様々な継続する事前学習シナリオに対して原則的かつ効率的な方法論を提供する。
- 参考スコア(独自算出の注目度): 7.267441247692648
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The efficacy of continued pre-training for Large Language Models (LLMs) hinges upon hyperparameter configurations, such as learning rate and batch size. However, current practices often rely on heuristics or grid searches, leading to training instability and excessive costs. In this work, we first empirically discover that optimal hyperparameters follow stable and predictable scaling laws throughout the continued pre-training process. Leveraging these insights, we propose a novel framework to establish quantitative relationships between compute budget and optimal hyperparameters for a given checkpoint. Our approach has two stages: (1) \textit{Empirical Law Discovery}, where we train small-scale proxy models to derive functions mapping compute budget to optimal hyperparameters via standard loss-compute scaling laws; and (2) \textit{State-Aware Hyperparameter Prediction}, where we evaluate an initial checkpoint's validation loss and use the inverse scaling law to estimate its \textit{equivalent pre-training compute} -- the compute needed to achieve the same loss from scratch. Combining this with the planned compute budget, we predict optimal hyperparameters for the target run. Empirical results demonstrate that our method reduces the hyperparameter search overhead by up to 90\% while achieving comparable or superior performance relative to baselines. This model-agnostic framework generalizes across architectures, providing a principled and efficient methodology for diverse continued pre-training scenarios starting from any given point.
- Abstract(参考訳): LLM(Large Language Models)の継続事前トレーニングの有効性は、学習率やバッチサイズなど、ハイパーパラメータの設定に依存している。
しかし、現在のプラクティスは、しばしばヒューリスティックやグリッドサーチに依存し、トレーニングの不安定性と過剰なコストにつながる。
本研究では, 最適パラメータが継続事前学習過程を通じて, 安定かつ予測可能なスケーリング法則に従うことを実証的に発見する。
これらの知見を生かして、所定のチェックポイントに対して最適なハイパーパラメータと計算予算の量的関係を確立する新しい枠組みを提案する。
提案手法は,(1) 計算予算を標準損失計算法により最適ハイパーパラメータにマッピングする関数を導出するために,小規模のプロキシモデルを訓練する,(2) チェックポイントの検証損失を評価し,逆スケーリング法を用いて,その‘textit{equivalent pre-training compute}’を推定する,という2段階からなる。
これと計画された計算予算を組み合わせることで、ターゲットランに最適なハイパーパラメータを予測できる。
実験により,提案手法は,ベースラインに対して同等あるいは優れた性能を達成しつつ,ハイパーパラメータ探索のオーバーヘッドを最大90%削減することを示した。
このモデルに依存しないフレームワークは、アーキテクチャをまたいで一般化し、任意の時点から始まる様々な継続事前学習シナリオに対して、原則付きかつ効率的な方法論を提供する。
関連論文リスト
- Predictable Scale: Part I, Step Law -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining [59.369484219304866]
我々は100兆のトークンをスクラッチから3,700以上の大規模言語モデル(LLM)に対する前例のない経験的調査訓練を実施している。
ステップ法則(ステップ法)と呼ばれる,LLM事前学習におけるハイパーパラメータ最適化のための普遍的スケーリング法則を確立する。
我々の推定オプティマは, 排他的探索によって得られた世界最高の性能から, テストセットの0.094%しか逸脱しない。
論文 参考訳(メタデータ) (2025-03-06T18:58:29Z) - Value-Based Deep RL Scales Predictably [100.21834069400023]
本研究は, 地域社会が病的行動に不安を抱いているにもかかわらず, 価値に基づく非政治的RL法が予測可能であることを示す。
SAC、BRO、PQLの3つのアルゴリズムを使って、DeepMind Control、OpenAI gym、IsaacGymの3つのアプローチを検証する。
論文 参考訳(メタデータ) (2025-02-06T18:59:47Z) - The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。
総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。
本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文 参考訳(メタデータ) (2025-01-21T20:23:22Z) - Fine-Tuning Adaptive Stochastic Optimizers: Determining the Optimal Hyperparameter $ε$ via Gradient Magnitude Histogram Analysis [0.7366405857677226]
我々は、損失の大きさの経験的確率密度関数に基づく新しい枠組みを導入し、これを「緩やかな等級ヒストグラム」と呼ぶ。
そこで本稿では, 最適安全のための精密かつ高精度な探索空間を自動推定するために, 勾配等級ヒストグラムを用いた新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-20T04:34:19Z) - PROMISE: Preconditioned Stochastic Optimization Methods by Incorporating Scalable Curvature Estimates [17.777466668123886]
PROMISE ($textbfPr$econditioned $textbfO$ptimization $textbfM$ethods by $textbfI$ncorporating $textbfS$calable Curvature $textbfE$stimates)はスケッチベースの事前条件勾配アルゴリズムである。
PROMISEには、SVRG、SAGA、およびKatyushaのプレコンディション版が含まれている。
論文 参考訳(メタデータ) (2023-09-05T07:49:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。