論文の概要: Configuration-to-Performance Scaling Law with Neural Ansatz
- arxiv url: http://arxiv.org/abs/2602.10300v1
- Date: Tue, 10 Feb 2026 21:16:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.284373
- Title: Configuration-to-Performance Scaling Law with Neural Ansatz
- Title(参考訳): ニューラルアンザッツを用いた構成・性能スケーリング法
- Authors: Huaqing Zhang, Kaiyue Wen, Tengyu Ma,
- Abstract要約: textitConfiguration-to-Performance Scaling Law (CPL)を学習する
CPLはトレーニング設定が最終トレーニング前損失にどのように影響するかを正確に予測する。
設定に依存しないチンチラ法よりも20~40%低い予測誤差を達成している。
- 参考スコア(独自算出の注目度): 19.686833161453464
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Researchers build scaling laws to forecast the training performance of expensive large-scale runs with larger model size N and data size D. These laws assume that other training hyperparameters are optimally chosen, which can require significant effort and, in some cases, be impossible due to external hardware constraints. To improve predictability across a broader set of hyperparameters and enable simpler tuning at scale, we propose learning a \textit{Configuration-to-Performance Scaling Law} (CPL): a mapping from the \textit{full training configuration} to training performance. Because no simple functional form can express this mapping, we parameterize it with a large language model (LLM), and fit it with diverse open-source pretraining logs across multiple sources, yielding a \textit{Neural} Configuration-to-Performance Scaling Law (NCPL). NCPL accurately predicts how training configurations influence the final pretraining loss, achieving 20-40% lower prediction error than the configuration-agnostic Chinchilla law and generalizing to runs using up to 10 x more compute than any run in the training set. It further supports joint tuning of multiple hyperparameters with performance comparable to hyperparameter scaling law baselines. Finally, NCPL naturally and effectively extends to richer prediction targets such as loss-curve prediction.
- Abstract(参考訳): これらの法則は、他のトレーニングハイパーパラメータが最適に選択されていると仮定し、かなりの努力が必要であり、場合によっては外部ハードウェアの制約のために不可能である。
そこで我々は,より広範なハイパーパラメータの予測可能性の向上と,より簡単なチューニングを実現するために,<textit{Configuration-to-Performance Scaling Law} (CPL) の学習を提案する。
単純な関数型ではこのマッピングを表現できないため、大きな言語モデル(LLM)でパラメータ化し、複数のソースにまたがる様々なオープンソースの事前トレーニングログに適合し、 \textit{Neural} Configuration-to-Performance Scaling Law (NCPL) を生成する。
NCPLはトレーニング設定が最終トレーニング前損失にどのように影響するかを正確に予測し、設定に依存しないチンチラ法よりも20-40%低い予測誤差を達成し、トレーニングセットのどの実行よりも最大10倍の計算を使用するように一般化する。
さらに、ハイパーパラメータスケーリング法則のベースラインに匹敵するパフォーマンスで、複数のハイパーパラメータのジョイントチューニングをサポートする。
最後に、NCPLは自然かつ効果的に、損失曲線予測のようなよりリッチな予測ターゲットに拡張する。
関連論文リスト
- PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - Predictable Scale: Part I, Step Law -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining [59.369484219304866]
我々は100兆のトークンをスクラッチから3,700以上の大規模言語モデル(LLM)に対する前例のない経験的調査訓練を実施している。
ステップ法則(ステップ法)と呼ばれる,LLM事前学習におけるハイパーパラメータ最適化のための普遍的スケーリング法則を確立する。
我々の推定オプティマは, 排他的探索によって得られた世界最高の性能から, テストセットの0.094%しか逸脱しない。
論文 参考訳(メタデータ) (2025-03-06T18:58:29Z) - Optimization Hyper-parameter Laws for Large Language Models [52.49860340549727]
ハイパーパラメータとトレーニング結果の関係をキャプチャするフレームワークであるOps-Lawsを提案する。
さまざまなモデルサイズとデータスケールにわたる検証は、Opt-Lawsのトレーニング損失を正確に予測する能力を示しています。
このアプローチは、全体的なモデル性能を高めながら、計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-09-07T09:37:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。