論文の概要: Mpemba Effect in Large-Language Model Training Dynamics: A Minimal Analysis of the Valley-River model
- arxiv url: http://arxiv.org/abs/2507.04206v1
- Date: Sun, 06 Jul 2025 01:34:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.066265
- Title: Mpemba Effect in Large-Language Model Training Dynamics: A Minimal Analysis of the Valley-River model
- Title(参考訳): 大言語モデルトレーニングダイナミクスにおけるMpemba効果:バレー・リバーモデルの最小解析
- Authors: Sibei Liu, Zhijian Hu,
- Abstract要約: 大規模言語モデル(LLM)トレーニングにおける学習速度のスケジュールは、ウォームアップ、一定のプラトー/安定フェーズ、崩壊といった経験的なテンプレートに従うことが多い。
トレーニング力学をMpemba効果を介して熱力学的アナログに接続する。
我々は、ある失われた風景に対して、最適な高原学習率、すなわち「強いムペンバ点」が存在することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning rate (LR) schedules in large language model (LLM) training often follow empirical templates: warm-up, constant plateau/stable phase, and decay (WSD). However, the mechanistic explanation for this strategy remains underexplored, and the choice of plateau height and decay schedule is largely heuristic. In this paper, we connect training dynamics to a thermodynamic analogy via the Mpemba effect - a phenomenon in which a hotter system cools faster than a colder one when quenched into the same bath. We analyze a class of "valley-river" loss landscapes, where sharp (valley) directions equilibrate quickly, while flatter (river) directions govern global descent. The Mpemba effect provides an explanation for the necessity of the warm-up phase and motivates a high plateau - rather than a low one - for accelerating loss decrease during decay. We show that for certain loss landscapes, there exists an optimal plateau learning rate - the "strong Mpemba point" - at which the slowest mode vanishes, resulting in faster convergence during the decay phase. We derive analytical conditions for its existence and estimate decay dynamics required to preserve the Mpemba advantage. Our minimal model and analysis offer a principled justification for plateau-based schedulers and provide guidance for tuning LR in LLMs with minimal hyperparameter sweep.
- Abstract(参考訳): 大規模言語モデル(LLM)トレーニングにおける学習率(LR)スケジュールは、ウォームアップ、一定のプラトー/安定フェーズ、減衰(WSD)といった経験的テンプレートに従うことが多い。
しかし、この戦略の機械的説明は未定であり、高原の高さと崩壊スケジュールの選択は概ねヒューリスティックである。
本稿では,Mpemba効果による熱力学的類似体にトレーニングダイナミクスを接続する。この現象は,同じ浴槽に浸漬した場合,暖房系が冷房系よりも速く冷却する現象である。
我々は、鋭い(バレー)方向が高速に平衡し、平らな(川)方向がグローバルな下降を支配している「バレー・リバー」損失景観のクラスを分析した。
Mpemba効果は、温暖化フェーズの必要性を説明し、崩壊時の損失減少を加速するために、低いものよりも高い高原を動機付ける。
特定の損失景観に対して、最も遅いモードが消滅する「強いムペンバ点」という最適高原学習速度が存在し、崩壊相の間はより早く収束することを示す。
我々は、Mpembaの優位性を維持するために必要な、その存在と推定崩壊ダイナミクスの分析条件を導出する。
我々の最小限のモデルと分析は、プラトーベーススケジューラの原理的な正当性を提供し、最小限のハイパーパラメータスイープでLLMのLRをチューニングするためのガイダンスを提供する。
関連論文リスト
- TAUDiff: Highly efficient kilometer-scale downscaling using generative diffusion models [0.0]
急激なターンアラウンド、ダイナミックな一貫性、極端な気象イベントの正確な時間的回復を達成することが不可欠である。
本稿では, 平均フィールドダウンスケーリングにおける決定論的時間モデルと, より小さな生成的拡散モデルを組み合わせて, 微細な特徴を再現する効率的な拡散モデルTAUDiffを提案する。
当社のアプローチは、関連するリスクや経済損失を見積もるために必要となる極端な事象を、より迅速にシミュレーションすることができる。
論文 参考訳(メタデータ) (2024-12-18T09:05:19Z) - Understanding Warmup-Stable-Decay Learning Rates: A River Valley Loss Landscape Perspective [66.80315289020487]
Warmup-Stable-Decay (WSD) スケジュールは、一定の学習率を使用して、所定の計算予算なしで無限に継続できるイテレーションのメインブランチを生成する。
プレトレーニング損失は,河底に川がある深い谷に類似した河谷景観を呈することを示す。
この理論にインスパイアされたWSD-Sは、従来のチェックポイントの崩壊フェーズを再利用し、メインブランチを1つだけ保持するWSDの変種である。
論文 参考訳(メタデータ) (2024-10-07T16:49:39Z) - Training Dynamics of Multi-Head Softmax Attention for In-Context Learning: Emergence, Convergence, and Optimality [54.20763128054692]
マルチタスク線形回帰の文脈内学習のためのマルチヘッドソフトマックスアテンションモデルを訓練するための勾配流のダイナミクスについて検討する。
我々は,勾配流のダイナミックス中に,興味深い「タスク割り当て」現象が現れることを証明した。
論文 参考訳(メタデータ) (2024-02-29T18:43:52Z) - A Near-Optimal Gradient Flow for Learning Neural Energy-Based Models [93.24030378630175]
学習エネルギーベースモデル(EBM)の勾配流を最適化する新しい数値スキームを提案する。
フォッカー・プランク方程式から大域相対エントロピーの2階ワッサーシュタイン勾配流を導出する。
既存のスキームと比較して、ワッサーシュタイン勾配流は実データ密度を近似するより滑らかで近似的な数値スキームである。
論文 参考訳(メタデータ) (2019-10-31T02:26:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。