論文の概要: Functional Scaling Laws in Kernel Regression: Loss Dynamics and Learning Rate Schedules
- arxiv url: http://arxiv.org/abs/2509.19189v3
- Date: Mon, 03 Nov 2025 13:29:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-04 20:19:58.507314
- Title: Functional Scaling Laws in Kernel Regression: Loss Dynamics and Learning Rate Schedules
- Title(参考訳): カーネル回帰における関数スケーリング法則:損失ダイナミクスと学習速度スケジューリング
- Authors: Binghui Li, Fengling Chen, Zixun Huang, Lean Wang, Lei Wu,
- Abstract要約: スケーリング法則は、大きな言語モデルのトレーニングを理解し、導くための統一レンズとして登場した。
我々は任意のLSSの下で全損失軌跡を捕捉する機能スケーリング法を確立した。
データ制限と計算制限の両方で明示的なスケーリング関係を導出する。
- 参考スコア(独自算出の注目度): 9.332823269318842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling laws have emerged as a unifying lens for understanding and guiding the training of large language models (LLMs). However, existing studies predominantly focus on the final-step loss, leaving open whether the entire loss dynamics obey similar laws and, crucially, how the learning rate schedule (LRS) shapes them. We address these gaps in a controlled theoretical setting by analyzing stochastic gradient descent (SGD) on a power-law kernel regression model. The key insight is a novel intrinsic-time viewpoint, which captures the training progress more faithfully than iteration count. We then establish a Functional Scaling Law (FSL) that captures the full loss trajectory under arbitrary LRSs, with the schedule's influence entering through a simple convolutional functional. We further instantiate the theory for three representative LRSs -- constant, exponential decay, and warmup-stable-decay (WSD) -- and derive explicit scaling relations in both data- and compute-limited regimes. These comparisons explain key empirical phenomena: (i) higher-capacity models are more data- and compute-efficient; (ii) learning-rate decay improves training efficiency; and (iii) WSD-type schedules outperform pure decay. Finally, experiments on LLMs ranging from 0.1B to 1B parameters demonstrate the practical relevance of FSL as a surrogate model for fitting and predicting loss trajectories in large-scale pre-training.
- Abstract(参考訳): スケーリング法則は、大きな言語モデル(LLM)のトレーニングを理解し指導するための統一レンズとして登場した。
しかし、既存の研究は主に最終段階の損失に焦点をあて、損失ダイナミクス全体が同様の法則に従うかどうかをオープンにし、学習率スケジュール(LRS)がそれらをどのように形成するかを重要視している。
我々はこれらのギャップを制御理論的な設定で解決し、パワー・ロー・カーネル回帰モデルに基づいて確率勾配勾配(SGD)を解析する。
重要な洞察は、新しい本質的な時間的視点であり、イテレーション数よりもトレーニングの進捗を忠実に捉えます。
次に、任意のLSSの下で全損失軌跡を捕捉する関数スケーリング法(FSL)を確立し、スケジュールの影響を単純な畳み込み関数に入力する。
さらに、定数、指数減衰、ウォームアップ安定デカイ(WSD)の3つの代表的LSRの理論をインスタンス化し、データと計算に制限されたレシエーションの両方において明示的なスケーリング関係を導出する。
これらの比較は、重要な経験的現象を説明する。
(i)高容量モデルは、よりデータ的で、計算効率が高い。
(二)学習率の低下により訓練効率が向上し、
(iii)WSD型スケジュールは純粋に崩壊する。
最後に、0.1Bから1BパラメータのLSM実験により、大規模事前学習における損失軌道の適合と予測のための代理モデルとしてのFSLの実用的妥当性が示された。
関連論文リスト
- Through the River: Understanding the Benefit of Schedule-Free Methods for Language Model Training [16.736880202930482]
本研究では, 損失景観の「川」構造を, 崩壊相や補助平均化を伴わず, 効果的にナビゲート可能であることを示す。
本研究では,大きなバッチサイズにおいて,運動量の向上と性能向上を図ったSFの改良版を提案する。
論文 参考訳(メタデータ) (2025-07-14T00:54:48Z) - AdaLRS: Loss-Guided Adaptive Learning Rate Search for Efficient Foundation Model Pretraining [12.630306478872043]
オンライン最適学習率探索を行うプラグイン・アンド・プレイ適応学習率探索アルゴリズムである textbfAdaLRS を提案する。
実験により,AdaLRSは最適近傍の最適学習率を顕著な効率と有効性で調整することが示された。
論文 参考訳(メタデータ) (2025-06-16T09:14:01Z) - LLMs on the Line: Data Determines Loss-to-Loss Scaling Laws [21.053622641336744]
ロス・ツー・ロスのスケーリング法則は、事前トレーニングされたデータセットと下流タスク間の損失を関連付ける。
実験の結果,事前学習データとトークン化器がスケーリングの傾向を決定することがわかった。
論文 参考訳(メタデータ) (2025-02-17T18:45:25Z) - Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能推定のためのより計算効率のよい指標として、事前学習損失に焦点を当てている。
FLP-Mは、事前トレーニング中に複数のソースからのデータセットを統合する実践的なニーズに対処する、パフォーマンス予測の基本的なアプローチである。
論文 参考訳(メタデータ) (2024-10-11T04:57:48Z) - Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。
固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。
当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文 参考訳(メタデータ) (2024-06-21T02:28:37Z) - Temporal Scaling Law for Large Language Models [70.74571133406958]
本稿では,LLMの試験損失が,トレーニングステップのスケールアップとともにどのように進展するかを考察する,時間スケーリング法の概念を提案する。
テスト損失全体を粗い粒度でモデル化するのとは対照的に、私たちはそれを分解して、各トークン位置のきめ細かいテスト損失に飛び込みます。
動的双曲法則におけるパラメータの時間的パターンを研究することにより、より正確な時間的スケーリング法則を導出する。
論文 参考訳(メタデータ) (2024-04-27T05:49:11Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。