論文の概要: WSM: Decay-Free Learning Rate Schedule via Checkpoint Merging for LLM Pre-training
- arxiv url: http://arxiv.org/abs/2507.17634v1
- Date: Wed, 23 Jul 2025 16:02:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:15.07172
- Title: WSM: Decay-Free Learning Rate Schedule via Checkpoint Merging for LLM Pre-training
- Title(参考訳): WSM: LLM事前学習のためのチェックポイントマージによる学習速度の低下
- Authors: Changxin Tian, Jiapeng Wang, Qian Zhao, Kunlong Chen, Jia Liu, Ziqi Liu, Jiaxin Mao, Wayne Xin Zhao, Zhiqiang Zhang, Jun Zhou,
- Abstract要約: 本稿では,学習速度減衰とモデルマージの正式な関係を確立するフレームワークであるWarmup-Stable and Merge(WSM)を紹介する。
WSMは様々な崩壊戦略をエミュレートするための統一された理論基盤を提供する。
私たちのフレームワークは、複数のベンチマークで広く採用されているWarmup-Stable-Decay(WSD)アプローチよりも一貫して優れています。
- 参考スコア(独自算出の注目度): 64.0932926819307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in learning rate (LR) scheduling have demonstrated the effectiveness of decay-free approaches that eliminate the traditional decay phase while maintaining competitive performance. Model merging techniques have emerged as particularly promising solutions in this domain. We present Warmup-Stable and Merge (WSM), a general framework that establishes a formal connection between learning rate decay and model merging. WSM provides a unified theoretical foundation for emulating various decay strategies-including cosine decay, linear decay and inverse square root decay-as principled model averaging schemes, while remaining fully compatible with diverse optimization methods. Through extensive experiments, we identify merge duration-the training window for checkpoint aggregation-as the most critical factor influencing model performance, surpassing the importance of both checkpoint interval and merge quantity. Our framework consistently outperforms the widely-adopted Warmup-Stable-Decay (WSD) approach across multiple benchmarks, achieving significant improvements of +3.5% on MATH, +2.9% on HumanEval, and +5.5% on MMLU-Pro. The performance advantages extend to supervised fine-tuning scenarios, highlighting WSM's potential for long-term model refinement.
- Abstract(参考訳): 近年の学習速度 (LR) のスケジューリングは, 競争性能を維持しつつ, 従来の崩壊相を排除した崩壊のない手法の有効性を実証している。
モデルマージ技術はこの領域で特に有望な解決策として現れている。
We present Warmup-Stable and Merge, a general framework that established a formal connection between learning rate decay and model merging。
WSMは、コサイン崩壊、線形崩壊、逆二乗根崩壊を原理化されたモデル平均化スキームを含む様々な崩壊戦略をエミュレートする統一的な理論基盤を提供する。
大規模な実験を通じて,チェックポイントアグリゲーションのためのマージ時間-トレーニングウィンドウを,チェックポイント間隔とマージ量の両方の重要性を超越したモデル性能に影響を与える最も重要な要因として同定する。
我々のフレームワークは、複数のベンチマークで広く採用されているWarmup-Stable-Decay(WSD)アプローチを一貫して上回り、MATHでは+3.5%、HumanEvalでは+2.9%、MMLU-Proでは+5.5%の大幅な改善を実現している。
パフォーマンス上のアドバンテージは、監督された微調整シナリオにまで拡張され、WSMの長期的なモデル改善の可能性を強調している。
関連論文リスト
- Train with Perturbation, Infer after Merging: A Two-Stage Framework for Continual Learning [59.6658995479243]
P&M(texttext-Perturb-and-Merge)は,モデルマージをCLパラダイムに統合し,忘れることを避けるための新しい連続学習フレームワークである。
理論的解析により、全てのタスクにおける総損失増加を最小化し、最適マージ係数の解析解を導出する。
提案手法は,複数の連続学習ベンチマークデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-05-28T14:14:19Z) - Feasible Learning [78.6167929413604]
本稿では,サンプル中心の学習パラダイムであるFeasible Learning(FL)を紹介する。
大規模言語モデルにおける画像分類, 年齢回帰, 好みの最適化といった経験的分析により, FLを用いて訓練したモデルでは, 平均的性能に限界があるものの, ERMと比較して改善された尾の挙動を示しながらデータから学習できることが実証された。
論文 参考訳(メタデータ) (2025-01-24T20:39:38Z) - Learning Dynamic Representations via An Optimally-Weighted Maximum Mean Discrepancy Optimization Framework for Continual Learning [16.10753846850319]
継続的な学習は、モデルを永続的に取得し、保持することを可能にする。
悲惨な忘れ物は モデルパフォーマンスを著しく損なう
本稿では,表現変更に対する罰則を課す,OPMMD(Optimally-Weighted Mean Discrepancy)と呼ばれる新しいフレームワークを紹介する。
論文 参考訳(メタデータ) (2025-01-21T13:33:45Z) - Margin Matching Preference Optimization: Enhanced Model Alignment with Granular Feedback [64.67540769692074]
人間のフィードバックからの強化学習など、アライメント技術で微調整された大規模言語モデル(LLM)は、これまでで最も有能なAIシステムの開発に役立っている。
マージンマッチング選好最適化(MMPO)と呼ばれる手法を導入し、相対的な品質マージンを最適化し、LLMポリシーと報酬モデルを改善する。
人間とAIの両方のフィードバックデータによる実験によると、MMPOはMT-benchやRewardBenchといった一般的なベンチマークにおいて、ベースラインメソッドよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-10-04T04:56:11Z) - Optimization of geological carbon storage operations with multimodal latent dynamic model and deep reinforcement learning [1.8549313085249324]
本稿では,高速フロー予測とGCSの制御最適化のためのディープラーニングフレームワークであるMLDモデルを紹介する。
既存のモデルとは異なり、MDDは多様な入力モダリティをサポートし、包括的なデータインタラクションを可能にする。
この手法は従来の手法よりも優れており、計算資源を60%以上削減し、最も高いNPVを達成する。
論文 参考訳(メタデータ) (2024-06-07T01:30:21Z) - Adaptive Multi-Scale Decomposition Framework for Time Series Forecasting [26.141054975797868]
本稿では,時系列予測のための新しい適応型マルチスケール分解(AMD)フレームワークを提案する。
我々のフレームワークは時系列を複数のスケールで異なる時間パターンに分解し、MDM(Multi-Scale Decomposable Mixing)ブロックを活用する。
提案手法は,時間依存性とチャネル依存性の両方を効果的にモデル化し,マルチスケールデータ統合を改良するために自己相関を利用する。
論文 参考訳(メタデータ) (2024-06-06T05:27:33Z) - Prior Constraints-based Reward Model Training for Aligning Large Language Models [58.33118716810208]
本稿では,この問題を解決するために,事前制約に基づくリワードモデル(PCRM)のトレーニング手法を提案する。
PCRMは、前回の制約、特に各比較ペアの出力間の長さ比とコサイン類似性を、最適化の規模を調節しスコアマージンを制御するための報酬モデルトレーニングに組み入れている。
実験結果から,PCRMは報酬スコアのスケーリングを効果的に抑制することによりアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-01T07:49:11Z) - Supervised Contrastive Learning based Dual-Mixer Model for Remaining
Useful Life Prediction [3.081898819471624]
Remaining Useful Life (RUL)予測は、現在の予測モーメントからデバイスの完全な障害までの残時間を正確に見積もることを目的としている。
従来のRUL予測手法における時間的特徴と空間的特徴の厳密結合の欠点を克服するため,Dual-Mixerモデルと呼ばれる空間的時間的特徴抽出器を提案する。
提案手法の有効性は,C-MAPSSデータセットに関する他の最新の研究結果との比較により検証した。
論文 参考訳(メタデータ) (2024-01-29T14:38:44Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - The Gradient Convergence Bound of Federated Multi-Agent Reinforcement
Learning with Efficient Communication [20.891460617583302]
連立学習パラダイムにおける協調的意思決定のための独立強化学習(IRL)の検討
FLはエージェントとリモート中央サーバ間の過剰な通信オーバーヘッドを生成する。
本稿では,システムの実用性向上のための2つの高度な最適化手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T07:21:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。