論文の概要: Functional Scaling Laws in Kernel Regression: Loss Dynamics and Learning Rate Schedules
- arxiv url: http://arxiv.org/abs/2509.19189v3
- Date: Mon, 03 Nov 2025 13:29:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-04 20:19:58.507314
- Title: Functional Scaling Laws in Kernel Regression: Loss Dynamics and Learning Rate Schedules
- Title(参考訳): カーネル回帰における関数スケーリング法則:損失ダイナミクスと学習速度スケジューリング
- Authors: Binghui Li, Fengling Chen, Zixun Huang, Lean Wang, Lei Wu,
- Abstract要約: スケーリング法則は、大きな言語モデルのトレーニングを理解し、導くための統一レンズとして登場した。
我々は任意のLSSの下で全損失軌跡を捕捉する機能スケーリング法を確立した。
データ制限と計算制限の両方で明示的なスケーリング関係を導出する。
- 参考スコア(独自算出の注目度): 9.332823269318842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling laws have emerged as a unifying lens for understanding and guiding the training of large language models (LLMs). However, existing studies predominantly focus on the final-step loss, leaving open whether the entire loss dynamics obey similar laws and, crucially, how the learning rate schedule (LRS) shapes them. We address these gaps in a controlled theoretical setting by analyzing stochastic gradient descent (SGD) on a power-law kernel regression model. The key insight is a novel intrinsic-time viewpoint, which captures the training progress more faithfully than iteration count. We then establish a Functional Scaling Law (FSL) that captures the full loss trajectory under arbitrary LRSs, with the schedule's influence entering through a simple convolutional functional. We further instantiate the theory for three representative LRSs -- constant, exponential decay, and warmup-stable-decay (WSD) -- and derive explicit scaling relations in both data- and compute-limited regimes. These comparisons explain key empirical phenomena: (i) higher-capacity models are more data- and compute-efficient; (ii) learning-rate decay improves training efficiency; and (iii) WSD-type schedules outperform pure decay. Finally, experiments on LLMs ranging from 0.1B to 1B parameters demonstrate the practical relevance of FSL as a surrogate model for fitting and predicting loss trajectories in large-scale pre-training.
- Abstract(参考訳): スケーリング法則は、大きな言語モデル(LLM)のトレーニングを理解し指導するための統一レンズとして登場した。
しかし、既存の研究は主に最終段階の損失に焦点をあて、損失ダイナミクス全体が同様の法則に従うかどうかをオープンにし、学習率スケジュール(LRS)がそれらをどのように形成するかを重要視している。
我々はこれらのギャップを制御理論的な設定で解決し、パワー・ロー・カーネル回帰モデルに基づいて確率勾配勾配(SGD)を解析する。
重要な洞察は、新しい本質的な時間的視点であり、イテレーション数よりもトレーニングの進捗を忠実に捉えます。
次に、任意のLSSの下で全損失軌跡を捕捉する関数スケーリング法(FSL)を確立し、スケジュールの影響を単純な畳み込み関数に入力する。
さらに、定数、指数減衰、ウォームアップ安定デカイ(WSD)の3つの代表的LSRの理論をインスタンス化し、データと計算に制限されたレシエーションの両方において明示的なスケーリング関係を導出する。
これらの比較は、重要な経験的現象を説明する。
(i)高容量モデルは、よりデータ的で、計算効率が高い。
(二)学習率の低下により訓練効率が向上し、
(iii)WSD型スケジュールは純粋に崩壊する。
最後に、0.1Bから1BパラメータのLSM実験により、大規模事前学習における損失軌道の適合と予測のための代理モデルとしてのFSLの実用的妥当性が示された。
関連論文リスト
- Optimal Learning-Rate Schedules under Functional Scaling Laws: Power Decay and Warmup-Stable-Decay [9.371921537573346]
機能的スケーリング法則の下で、最適学習率スケジュール(LRS)について検討する。
LRSは線形回帰と大規模言語モデル(LLM)の事前学習の損失ダイナミクスを正確にモデル化する。
我々は,ピーク学習率のみを調整した最適な形状固定スケジュールを解析する。
論文 参考訳(メタデータ) (2026-02-06T15:52:30Z) - Consolidation or Adaptation? PRISM: Disentangling SFT and RL Data via Gradient Concentration [56.074760766965085]
PRISMは、モデルの既存の知識との認知的対立度に基づいてデータを調停する動的認識フレームワークを実現する。
この結果から,内部最適化方式に基づくデータ分離が,スケーラブルでロバストなエージェントアライメントに不可欠であることが示唆された。
論文 参考訳(メタデータ) (2026-01-12T05:43:20Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - Learning to Reason as Action Abstractions with Scalable Mid-Training RL [55.24192942739207]
効果的な中間訓練フェーズは、有用なアクションのコンパクトなセットを特定し、高速な選択を可能にする。
本稿では,スケーラブルなミッドトレーニングアルゴリズムであるReasoning as Action Abstractions (RA3)を提案する。
論文 参考訳(メタデータ) (2025-09-30T05:34:20Z) - Scaling Behaviors of LLM Reinforcement Learning Post-Training: An Empirical Study in Mathematical Reasoning [42.80470927369973]
我々は、モデルスケール、データボリューム、計算予算がどのように相互作用し、パフォーマンスを形作るかを研究する。
より少ないステップでトレーニングされたより大きなモデルは、より多くのステップでトレーニングされた小さなモデルよりも一貫して優れています。
データ制約されたレシエーションでは、高品質なデータの繰り返し再利用は極めて効果的である。
論文 参考訳(メタデータ) (2025-09-29T17:10:35Z) - Through the River: Understanding the Benefit of Schedule-Free Methods for Language Model Training [16.736880202930482]
本研究では, 損失景観の「川」構造を, 崩壊相や補助平均化を伴わず, 効果的にナビゲート可能であることを示す。
本研究では,大きなバッチサイズにおいて,運動量の向上と性能向上を図ったSFの改良版を提案する。
論文 参考訳(メタデータ) (2025-07-14T00:54:48Z) - AdaLRS: Loss-Guided Adaptive Learning Rate Search for Efficient Foundation Model Pretraining [12.630306478872043]
オンライン最適学習率探索を行うプラグイン・アンド・プレイ適応学習率探索アルゴリズムである textbfAdaLRS を提案する。
実験により,AdaLRSは最適近傍の最適学習率を顕著な効率と有効性で調整することが示された。
論文 参考訳(メタデータ) (2025-06-16T09:14:01Z) - Implicit bias produces neural scaling laws in learning curves, from perceptrons to deep networks [12.108234998867337]
我々は,異なるノルムベースの複雑性尺度の関数として,パフォーマンスの進化を規定する2つの新しいテキスト力学的スケーリング法則を同定する。
我々の発見は、CNN、ResNets、MNIST、CIFAR-10、CIFAR-100で訓練されたVision Transformersで一致している。
我々は,ロジスティックな損失で訓練された単一層パーセプトロンを用いて解析支援を行い,新しい動的スケーリング法則を導出する。
論文 参考訳(メタデータ) (2025-05-19T15:13:36Z) - Scaling Laws for Data-Efficient Visual Transfer Learning [14.114908296325277]
本稿では,視覚伝達学習におけるデータ効率のスケーリング法則に関する最初の実践的枠組みを確立する。
本稿では,蒸留効率の重要な転換点を明らかにする蒸留境界理論を提案する。
この研究は、データ制限されたレシエーションのスケーリング法則を再定義し、大規模事前学習と実践的な下流適応の知識ギャップを埋める。
論文 参考訳(メタデータ) (2025-04-17T07:01:01Z) - Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z) - LLMs on the Line: Data Determines Loss-to-Loss Scaling Laws [21.053622641336744]
ロス・ツー・ロスのスケーリング法則は、事前トレーニングされたデータセットと下流タスク間の損失を関連付ける。
実験の結果,事前学習データとトークン化器がスケーリングの傾向を決定することがわかった。
論文 参考訳(メタデータ) (2025-02-17T18:45:25Z) - Scaling Law for Stochastic Gradient Descent in Quadratically Parameterized Linear Regression [5.801904710149222]
機械学習において、スケーリング法則は、モデルとデータサイズをスケールアップすることで、モデルパフォーマンスがどのように改善されるかを記述する。
本稿では,2次パラメータ化モデルを用いた線形回帰のスケーリング法則について検討する。
その結果、正準線形回帰では、特徴学習による一般化と不要な曲線と、パラメトリゼーション法とアルゴリズムに対する情報理論の下界との明確な分離が提供される。
論文 参考訳(メタデータ) (2025-02-13T09:29:04Z) - Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能推定のためのより計算効率のよい指標として、事前学習損失に焦点を当てている。
FLP-Mは、事前トレーニング中に複数のソースからのデータセットを統合する実践的なニーズに対処する、パフォーマンス予測の基本的なアプローチである。
論文 参考訳(メタデータ) (2024-10-11T04:57:48Z) - Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。
固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。
当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文 参考訳(メタデータ) (2024-06-21T02:28:37Z) - Temporal Scaling Law for Large Language Models [70.74571133406958]
本稿では,LLMの試験損失が,トレーニングステップのスケールアップとともにどのように進展するかを考察する,時間スケーリング法の概念を提案する。
テスト損失全体を粗い粒度でモデル化するのとは対照的に、私たちはそれを分解して、各トークン位置のきめ細かいテスト損失に飛び込みます。
動的双曲法則におけるパラメータの時間的パターンを研究することにより、より正確な時間的スケーリング法則を導出する。
論文 参考訳(メタデータ) (2024-04-27T05:49:11Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。