論文の概要: The Stability of Singular Distribution: A Spectral Perspective on the Two-Phase Dynamics of Language Model Pre-training
- arxiv url: http://arxiv.org/abs/2605.26489v1
- Date: Tue, 26 May 2026 03:03:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.593792
- Title: The Stability of Singular Distribution: A Spectral Perspective on the Two-Phase Dynamics of Language Model Pre-training
- Title(参考訳): 特異分布の安定性:言語モデル事前学習の2相ダイナミクスのスペクトル的視点
- Authors: Hongtao Zhang, Wenjie Zhou, Chenxi Jia, Wei Chen, Xueqi Cheng,
- Abstract要約: そこで我々は, スペクトル分布の安定性 (SoSD) を推定し, そこではトレース正規化特異値スペクトルが早期に安定化する。
我々は,SoSDと緩やかな周期の同期が多種多様なアーキテクチャで広く観測されていることを実証した。
我々は、WSDやMuonのような戦略をさらに解釈し、SOSDスケールを変調し、効率的な事前学習ダイナミクスを理解するためのスペクトルレンズを提供する。
- 参考スコア(独自算出の注目度): 48.37150760049573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model pre-training typically exhibits a two-phase trajectory: a fast initial loss drop followed by a prolonged slow improvement. We identify an underlying spectral phenomenon, Stability of Singular Distribution (SoSD), where the trace-normalized singular value spectrum stabilizes early, even as parameter matrices continue to evolve. We demonstrate that synchronization between SoSD and the slow-descent regime is widely observed across diverse architectures (GPT-2, LLaMA) and settings, including various schedules (Step-wise, WSD, Cosine Decay), weight decays, and optimizers (AdamW, Muon). By analyzing a simplified Transformer, we prove that growing weight norms inevitably precipitate an early SoSD threshold, after which the rate of loss decrease becomes theoretically bounded by the variation in the singular distribution. We further interpret strategies like WSD and Muon through their ability to modulate the SoSD scale, offering a spectral lens for understanding efficient pre-training dynamics.
- Abstract(参考訳): 大規模言語モデルの事前訓練は通常、2段階の軌道を示す。
パラメータ行列が進化し続けるにつれて, スペクトルスペクトルが早期に安定化する, 基本スペクトル現象, 特異分布の安定性(SoSD)を同定する。
我々は,SOSDと緩やかな状態の同期が,様々なアーキテクチャ (GPT-2, LLaMA) や,様々なスケジュール (Step-wise, WSD, Cosine Decay) や重み減衰,オプティマイザ (AdamW, Muon) などにおいて広く見られることを示した。
単純化されたトランスフォーマーを解析することにより、成長するウェイトノルムが早期のSOSD閾値を必然的に上昇させ、その後、損失の減少率は特異分布の変化によって理論的に拘束されることを示した。
我々は、WSDやMuonのような戦略をさらに解釈し、SOSDスケールを変調し、効率的な事前学習ダイナミクスを理解するためのスペクトルレンズを提供する。
関連論文リスト
- Stable Long-Horizon PDE Forecasting via Latent Structured Spectral Propagators [5.407057882221537]
本稿では,PDEロールアウトを,伝搬指向の潜在空間における構造化スペクトル伝搬器(Structured Spectral Propagator, SSP)の学習として再構成するニューラルネットワーク予測フレームワークを提案する。
SSPは最先端のベースラインを著しく上回り、相対的な$L$エラーを最大48.9%削減し、監督された地平線を超えて時間外挿の安定性が向上した。
論文 参考訳(メタデータ) (2026-05-11T08:00:42Z) - TimeAPN: Adaptive Amplitude-Phase Non-Stationarity Normalization for Time Series Forecasting [67.91113180885601]
TimeAPNは時間領域と周波数領域の両方から非定常因子を明示的にモデル化し、予測する。
TimeAPNは、複数の予測水平線にわたる長期的な予測精度を一貫して改善する。
これは最先端の可逆正規化法より優れている。
論文 参考訳(メタデータ) (2026-03-18T07:21:24Z) - Plug-and-Play Diffusion Meets ADMM: Dual-Variable Coupling for Robust Medical Image Reconstruction [45.25461515976432]
画像再構成のための強力なパラダイムとして,DP(Plug-and-Play diffusion prior)フレームワークが登場した。
本稿では, バイアス・ハロシン化トレードオフを解消し, 収束を著しく加速した最先端の勾配を実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2026-02-26T16:58:43Z) - Learning to Dissipate Energy in Oscillatory State-Space Models [51.98491034847041]
状態空間モデル (SSM) はシーケンス学習のためのネットワークのクラスである。
我々は,D-LinOSSがLinOSSの手法を長距離学習タスクで一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-05-17T23:15:17Z) - Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - NAG-GS: Semi-Implicit, Accelerated and Robust Stochastic Optimizer [45.47667026025716]
2つの重要な要素に依存した、新しく、堅牢で、加速された反復を提案する。
NAG-GSと呼ばれる手法の収束と安定性は、まず広範に研究されている。
我々は、NAG-arityが、重量減衰を伴う運動量SGDや機械学習モデルのトレーニングのためのAdamWといった最先端の手法と競合していることを示す。
論文 参考訳(メタデータ) (2022-09-29T16:54:53Z) - The Limiting Dynamics of SGD: Modified Loss, Phase Space Oscillations,
and Anomalous Diffusion [29.489737359897312]
勾配降下法(SGD)を訓練した深部ニューラルネットワークの限界ダイナミクスについて検討する。
これらのダイナミクスを駆動する重要な要素は、本来のトレーニング損失ではなく、位相空間の振動を引き起こす速度と確率電流を暗黙的に規則化する修正損失の組み合わせであることを示す。
論文 参考訳(メタデータ) (2021-07-19T20:18:57Z) - On the Generalization of Stochastic Gradient Descent with Momentum [84.54924994010703]
運動量に基づく勾配降下(SGD)の加速変種は、機械学習モデルを訓練する際に広く用いられる。
まず,標準重球運動量(SGDM)を持つSGDの複数のエポックに対する安定性ギャップが非有界となる凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対しては、修正モーメントベースの更新規則、すなわち、幅広いステップサイズで初期運動量(SGDEM)を解析する。
論文 参考訳(メタデータ) (2018-09-12T17:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。