論文の概要: Through the River: Understanding the Benefit of Schedule-Free Methods for Language Model Training
- arxiv url: http://arxiv.org/abs/2507.09846v1
- Date: Mon, 14 Jul 2025 00:54:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:24.079005
- Title: Through the River: Understanding the Benefit of Schedule-Free Methods for Language Model Training
- Title(参考訳): 川を流れる:言語モデルトレーニングのためのスケジュールなし手法の利点を理解する
- Authors: Minhak Song, Beomhan Baek, Kwangjun Ahn, Chulhee Yun,
- Abstract要約: 本研究では, 損失景観の「川」構造を, 崩壊相や補助平均化を伴わず, 効果的にナビゲート可能であることを示す。
本研究では,大きなバッチサイズにおいて,運動量の向上と性能向上を図ったSFの改良版を提案する。
- 参考スコア(独自算出の注目度): 16.736880202930482
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As both model and dataset sizes continue to scale rapidly, conventional pretraining strategies with fixed compute budgets-such as cosine learning rate schedules-are increasingly inadequate for large-scale training. Recent alternatives, including warmup-stable-decay (WSD) schedules and weight averaging, offer greater flexibility. However, WSD relies on explicit decay phases to track progress, while weight averaging addresses this limitation at the cost of additional memory. In search of a more principled and scalable alternative, we revisit the Schedule-Free (SF) method [Defazio et al., 2024], which has shown strong empirical performance across diverse settings. We show that SF-AdamW effectively navigates the "river" structure of the loss landscape without decay phases or auxiliary averaging, making it particularly suitable for continuously scaling training workloads. To understand this behavior, we conduct a theoretical and empirical analysis of SF dynamics, revealing that it implicitly performs weight averaging without memory overhead. Guided by this analysis, we propose a refined variant of SF that improves robustness to momentum and performs better under large batch sizes, addressing key limitations of the original method. Together, these results establish SF as a practical, scalable, and theoretically grounded approach for language model training.
- Abstract(参考訳): モデルサイズとデータセットサイズの両方が急速に拡大しているため、コサイン学習率のスケジュールのような固定された計算予算を持つ従来の事前訓練戦略は、大規模トレーニングには不適当である。
最近の方法としては、ウォームアップ・スタブル・デケイ(WSD)スケジュールやウェイト平均化などがあり、柔軟性が向上している。
しかし、WSDは進捗を追跡するために明確な崩壊フェーズに依存し、平均的な重み付けは追加メモリのコストでこの制限に対処する。
より原理的かつスケーラブルな代替手段を探索するために, 多様な設定において強い経験的性能を示したSchedule-Free (SF) 法 [Defazio et al , 2024] を再検討した。
SF-AdamWは、損失景観の「川」構造を減衰相や補助平均化なしで効果的にナビゲートし、特に連続的な訓練作業のスケーリングに適していることを示す。
この振る舞いを理解するために、我々はSF力学の理論的および経験的解析を行い、記憶オーバーヘッドを伴わずに暗黙的に重量平均化を行うことを示した。
この分析で導かれた改良版SFは、運動量に対するロバスト性を向上し、バッチサイズが大きくなると性能が向上し、元の手法の限界に対処する。
これらの結果により、SFは言語モデルトレーニングの実践的でスケーラブルで理論的に基礎的なアプローチとして確立される。
関連論文リスト
- Optimal Growth Schedules for Batch Size and Learning Rate in SGD that Reduce SFO Complexity [0.6906005491572401]
計算勾配法におけるバッチサイズと学習速度のスケジューリングは効率を低下させ、収束を損なう。
理論的には,SFOの複雑性を低減させるバッチサイズと学習率の最適な成長スケジュールを導出した。
本結果は,ディープラーニングにおける大規模バッチ学習をスケーラブルかつ効率的に行うための理論的知見と実践的ガイドラインの両方を提供する。
論文 参考訳(メタデータ) (2025-08-07T11:52:25Z) - Predictive Scaling Laws for Efficient GRPO Training of Large Reasoning Models [0.41942958779358663]
本稿では,動的トレーニングをモデル化し,資源利用の最適化を支援する予測フレームワークを提案する。
モデルサイズ,初期性能,トレーニング進捗に基づく経験的スケーリング法則を導出する。
特定のエポック数を超えるトレーニングでは、ほとんど利益が得られず、早い段階で停止することで、パフォーマンスを犠牲にすることなく計算を大幅に削減できることが示唆されている。
論文 参考訳(メタデータ) (2025-07-24T01:09:25Z) - Fast and Stable Diffusion Planning through Variational Adaptive Weighting [3.745003761050674]
拡散モデルは、最近オフラインRLで有望であることが示されている。
これらの手法は、しばしば高い訓練コストと緩やかな収束に悩まされる。
本稿では,フローベース生成モデルに基づくオンライン推定のためのクローズドフォーム近似手法を提案する。
Maze2D タスクと Kitchen タスクの実験結果から,本手法は最大10倍のトレーニングステップで競争性能を達成できることが示された。
論文 参考訳(メタデータ) (2025-06-20T02:12:04Z) - AdaLRS: Loss-Guided Adaptive Learning Rate Search for Efficient Foundation Model Pretraining [12.630306478872043]
オンライン最適学習率探索を行うプラグイン・アンド・プレイ適応学習率探索アルゴリズムである textbfAdaLRS を提案する。
実験により,AdaLRSは最適近傍の最適学習率を顕著な効率と有効性で調整することが示された。
論文 参考訳(メタデータ) (2025-06-16T09:14:01Z) - Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z) - On the Surprising Effectiveness of Large Learning Rates under Standard Width Scaling [11.168336416219857]
既存の無限幅理論は、大きな学習率で不安定を予測し、安定した学習率で特徴学習を消滅させる。
この相違は,カタパルト効果などの有限幅現象によって完全に説明できないことを示す。
制御された分散状態下でのニューラルネットワークの動作はCE損失では有効であるが,MSE損失では不可能である。
論文 参考訳(メタデータ) (2025-05-28T15:40:48Z) - Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。
総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。
本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文 参考訳(メタデータ) (2025-01-21T20:23:22Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。
提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。
推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文 参考訳(メタデータ) (2020-04-26T16:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。