論文の概要: CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs
- arxiv url: http://arxiv.org/abs/2510.01037v1
- Date: Wed, 01 Oct 2025 15:41:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.650608
- Title: CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs
- Title(参考訳): CurES:LLMの逐次解析から効率的なカリキュラム学習へ
- Authors: Yongcheng Zeng, Zexu Sun, Bokai Ji, Erxue Min, Hengyi Cai, Shuaiqiang Wang, Dawei Yin, Haifeng Zhang, Xu Chen, Jun Wang,
- Abstract要約: カリキュラム学習は,大規模言語モデルの学習効率を高める上で重要な役割を担っている。
収束を加速し,計算オーバーヘッドを最小限に抑えるためにベイズ後続推定を用いた効率的な学習法であるCurESを提案する。
- 参考スコア(独自算出の注目度): 53.749193998004166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Curriculum learning plays a crucial role in enhancing the training efficiency of large language models (LLMs) on reasoning tasks. However, existing methods often fail to adequately account for variations in prompt difficulty or rely on simplistic filtering mechanisms to select prompt datasets within a narrow criterion range, resulting in significant computational waste. In this work, we approach the problem from the perspective of reinforcement learning gradient optimization, offering a systematic and theoretical investigation into how to improve the training efficiency of LLMs. We identify two key factors influencing training efficiency: the selection of training prompts and the allocation of rollout quantities across different prompts. Our theoretical analysis reveals that the sampling distribution of prompts dictates the convergence rate of gradient descent, while the allocation of the rollout quantity influences the consistency and stability of overall gradient updates. Based on these insights, we propose CurES, an efficient training method that accelerates convergence and employs Bayesian posterior estimation to minimize computational overhead. Experiments demonstrate that our CurES outperforms Group Relative Policy Optimization (GRPO) by \textbf{+3.30} points and \textbf{+4.82} points with 1.5B and 7B models, respectively. Additionally, CurES exhibits faster convergence compared to baselines, including GRPO.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論作業における訓練効率を高める上で,カリキュラム学習は重要な役割を担っている。
しかし、既存の手法では、迅速な難易度の変化を適切に説明できない場合や、狭い基準範囲内でデータセットを選択するための単純化されたフィルタリング機構に頼らない場合があり、結果としてかなりの計算時間の浪費が発生する。
本研究では, 強化学習勾配最適化の観点から, LLMの学習効率向上のための体系的, 理論的検討を行った。
トレーニングプロンプトの選択と,異なるプロンプト間のロールアウト量の割り当てという,トレーニング効率に影響を与える2つの要因を同定する。
解析の結果,プロンプトのサンプリング分布は勾配降下の収束率を規定する一方で,ロールアウト量の配分は勾配更新全体の一貫性と安定性に影響を及ぼすことがわかった。
これらの知見に基づいて、収束を加速し、計算オーバーヘッドを最小限に抑えるためにベイズ後続推定を用いる効率的な訓練法であるCurESを提案する。
実験により、我々のCurESは、それぞれ1.5Bと7Bのモデルで、textbf{+3.30} 点と \textbf{+4.82} 点により、グループ相対政策最適化(GRPO)より優れていることが示された。
さらに、CurESはGRPOを含むベースラインよりも早く収束している。
関連論文リスト
- Prompt Curriculum Learning for Efficient LLM Post-Training [30.19003037220951]
本稿では,学習価値モデルを用いて中間微分プロンプトを選択するアルゴリズムであるPrompt Curriculum Learning (PCL)を紹介する。
我々は,PCLがRLの間,より困難なプロンプトに集中できることを示す。
論文 参考訳(メタデータ) (2025-10-01T17:24:28Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle [53.239242017802056]
強化学習(Reinforcement Learning, RL)は、マルチモーダル大言語モデル(MLLM)の推論能力を高めるための効果的なポストトレーニングパラダイムとして登場した。
しかしながら、現在のRLパイプラインは、アドバンテージ・コラプシング(Advantage Collapsing)とロールアウト・サイレンシング(Rollout Silencing)という2つの未解決の問題によって、トレーニングの非効率に悩まされることが多い。
軌道サンプリングとバッチ合成を動的に再構成することにより、RLの微調整効率を向上する、シンプルだが原則化されたフレームワークであるShuffle-R1を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:53:47Z) - Optimal Growth Schedules for Batch Size and Learning Rate in SGD that Reduce SFO Complexity [0.6906005491572401]
計算勾配法におけるバッチサイズと学習速度のスケジューリングは効率を低下させ、収束を損なう。
理論的には,SFOの複雑性を低減させるバッチサイズと学習率の最適な成長スケジュールを導出した。
本結果は,ディープラーニングにおける大規模バッチ学習をスケーラブルかつ効率的に行うための理論的知見と実践的ガイドラインの両方を提供する。
論文 参考訳(メタデータ) (2025-08-07T11:52:25Z) - Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z) - DUMP: Automated Distribution-Level Curriculum Learning for RL-based LLM Post-training [19.701565022644605]
本稿では,分布レベルの学習可能性の概念に基づくカリキュラム学習フレームワークを提案する。
我々のフレームワークは、高い平均的優位性(探索)または低いサンプル数(探索)で分布を優先順位付けする。
実験の結果,本フレームワークは収束速度と最終性能を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2025-04-13T20:10:27Z) - Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - Unbiased and Efficient Self-Supervised Incremental Contrastive Learning [31.763904668737304]
本稿では,新たなIncremental InfoNCE(NCE-II)損失関数からなる自己教師型Incremental Contrastive Learning(ICL)フレームワークを提案する。
ICLは最大16.7倍のトレーニングスピードアップと16.8倍の高速収束を実現している。
論文 参考訳(メタデータ) (2023-01-28T06:11:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。