論文の概要: Universal One-third Time Scaling in Learning Peaked Distributions
- arxiv url: http://arxiv.org/abs/2602.03685v1
- Date: Tue, 03 Feb 2026 16:06:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.560573
- Title: Universal One-third Time Scaling in Learning Peaked Distributions
- Title(参考訳): 学習ピーク分布における3分の1の時間スケーリング
- Authors: Yizhou Liu, Ziming Liu, Cengiz Pehlevan, Jeff Gore,
- Abstract要約: 大規模言語モデル(LLMs)の訓練は、損失が低速なパワー・ロー・コンバージェンスを示すこともあって、計算コストがかかる。
本研究は,ソフトマックスとクロスエントロピーを用いて本質的にこの挙動が生じることを示す。
- 参考スコア(独自算出の注目度): 48.44706450307606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training large language models (LLMs) is computationally expensive, partly because the loss exhibits slow power-law convergence whose origin remains debatable. Through systematic analysis of toy models and empirical evaluation of LLMs, we show that this behavior can arise intrinsically from the use of softmax and cross-entropy. When learning peaked probability distributions, e.g., next-token distributions, these components yield power-law vanishing losses and gradients, creating a fundamental optimization bottleneck. This ultimately leads to power-law time scaling of the loss with a universal exponent of $1/3$. Our results provide a mechanistic explanation for observed neural scaling and suggest new directions for improving LLM training efficiency.
- Abstract(参考訳): 大規模言語モデル (LLMs) の訓練には計算コストがかかる。
玩具模型の系統的解析とLLMの実証評価により,この挙動はソフトマックスとクロスエントロピーを用いて本質的に生じる可能性が示唆された。
ピーク時確率分布、例えば次トーケン分布を学習すると、これらの成分は損失と勾配を消耗するパワー・ローをもたらすので、根本的な最適化のボトルネックを生み出します。
これは最終的に、ユニバーサル指数の1/3$で損失の電力-法則時間のスケーリングにつながる。
この結果は,観測された神経スケーリングの力学的説明を提供し,LLMトレーニング効率を向上させるための新しい方向を提案する。
関連論文リスト
- Data Distribution as a Lever for Guiding Optimizers Toward Superior Generalization in LLMs [60.68927774057402]
はじめに、単純さのバイアスが小さくなれば、より良い一般化がもたらされることを示す。
この知見に触発されて、訓練後のサンプルのアップサンプリングや強化によるトレーニングデータ分布がSBを減少させ、一般化の改善につながることを示す。
我々はPhi2-2.7B, Llama3.2-1B, Gemma3-1B-PT, Qwen3-0.6B-Base など複数の言語モデルの性能向上を図る。
論文 参考訳(メタデータ) (2026-01-31T07:40:36Z) - The Art of Scaling Reinforcement Learning Compute for LLMs [52.71086085139566]
強化学習(RL)は、大規模言語モデルの訓練の中心となっている。
計算予算の急激な増加にもかかわらず、RL計算のスケーリングにおけるアルゴリズム改善の評価方法に関する原則的な理解は存在しない。
我々は,約40万時間以上のGPU時間を有する,最初の大規模体系的な研究を提示する。
論文 参考訳(メタデータ) (2025-10-15T17:43:03Z) - Functional Scaling Laws in Kernel Regression: Loss Dynamics and Learning Rate Schedules [9.332823269318842]
スケーリング法則は、大きな言語モデルのトレーニングを理解し、導くための統一レンズとして登場した。
我々は任意のLSSの下で全損失軌跡を捕捉する機能スケーリング法を確立した。
データ制限と計算制限の両方で明示的なスケーリング関係を導出する。
論文 参考訳(メタデータ) (2025-09-23T16:05:16Z) - J1: Exploring Simple Test-Time Scaling for LLM-as-a-Judge [24.607213170485743]
本稿では,リジェクションサンプリングによって収集されたリフレクション強化データセットを教師付きで調整した$textbfJ1-7B$を紹介する。
推論時に、さらなるパフォーマンス改善のためにシンプルなテスト時間スケーリング(STTS)戦略を適用します。
実験の結果、$textbfJ1-7B$は、以前の最先端のLM-as-a-Judgeを$ textbf4.8$%超え、STTSの下でより強いスケーリング傾向を示す。
論文 参考訳(メタデータ) (2025-05-17T06:58:42Z) - Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能推定のためのより計算効率のよい指標として、事前学習損失に焦点を当てている。
FLP-Mは、事前トレーニング中に複数のソースからのデータセットを統合する実践的なニーズに対処する、パフォーマンス予測の基本的なアプローチである。
論文 参考訳(メタデータ) (2024-10-11T04:57:48Z) - LEMON: Lossless model expansion [43.40389747029802]
ディープニューラルネットワーク、特にトランスフォーマーのスケーリングは、その急増するパフォーマンスにとって重要なものだ。
私たちは、より小さいがトレーニング済みのモデルの重みを使ってスケールされたモデルを初期化するレシピである、textbfL$ossl$textbfE$ss $textbfMO$del Expansio$textbfN$ (LEMON)を提示します。
LEMONは,視覚変換器の計算コストを56.7%削減し,BERTの33.2%削減した。
論文 参考訳(メタデータ) (2023-10-12T03:02:41Z) - Distributional Reinforcement Learning with Dual Expectile-Quantile Regression [51.87411935256015]
分布RLに対する量子レグレッションアプローチは、任意の戻り分布を柔軟かつ効果的に学習する方法を提供する。
我々は,分布推定が消失することを示し,推定分布が急速に平均に崩壊することを実証的に観察した。
我々は,$L$の学習効率に感化され,効率のよい学習方法として,返却分布の期待値と量子値を共同で学習することを提案する。
論文 参考訳(メタデータ) (2023-05-26T12:30:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。