論文の概要: CLPO: Curriculum Learning meets Policy Optimization for LLM Reasoning
- arxiv url: http://arxiv.org/abs/2509.25004v1
- Date: Mon, 29 Sep 2025 16:29:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.130599
- Title: CLPO: Curriculum Learning meets Policy Optimization for LLM Reasoning
- Title(参考訳): CLPO:LLM推論のためのポリシー最適化を実現するカリキュラム学習
- Authors: Shijie Zhang, Guohao Sun, Kevin Zhang, Xiang Guo, Rujun Guo,
- Abstract要約: 政策最適化プロセス内に動的教育フィードバックループを生成する新しいアルゴリズムであるCLPOを提案する。
Curriculum-Guided Learning for Policy Optimizationは、静的トレーニング手順を、モデルの能力と共進化する動的なプロセスに変換する。
実験により、CLPOは8つの挑戦的な数学的および一般的な推論ベンチマークで最先端のパフォーマンスを達成することが示された。
- 参考スコア(独自算出の注目度): 10.544900224321415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, online Reinforcement Learning with Verifiable Rewards (RLVR) has become a key paradigm for enhancing the reasoning capabilities of Large Language Models (LLMs). However, existing methods typically treat all training samples uniformly, overlooking the vast differences in problem difficulty relative to the model's current capabilities. This uniform training strategy leads to inefficient exploration of problems the model has already mastered, while concurrently lacking effective guidance on problems that are challenging its abilities the most, limiting both learning efficiency and upper-bound performance. To address this, we propose CLPO (Curriculum-guided Learning for Policy Optimization), a novel algorithm that creates a dynamic pedagogical feedback loop within the policy optimization process. The core of CLPO leverages the model's own rollout performance to conduct real-time difficulty assessment, thereby constructing an Online Curriculum. This curriculum then guides an Adaptive Problem Restructuring mechanism, where the model acts as its own teacher: it diversifies medium-difficulty problems to promote generalization and simplifies challenging problems to make them more attainable. Our approach transforms the static training procedure into a dynamic process that co-evolves with the model's capabilities. Experiments show that CLPO achieves state-of-the-art performance across eight challenging mathematical and general reasoning benchmarks, with an average pass@1 improvement of 6.96% over other methods, demonstrating its potential for more efficiently training more capable reasoning models.
- Abstract(参考訳): 近年,LLVR (Reinforcement Learning with Verifiable Rewards) は,Large Language Models (LLMs) の推論能力を高めるための重要なパラダイムとなっている。
しかし、既存の手法では、モデルが現在持っている能力と比較して、問題の難しさの大きな違いを見越して、すべてのトレーニングサンプルを均一に扱うのが一般的である。
この均一なトレーニング戦略は、モデルが既に習得した問題の非効率な探索につながり、同時にその能力に最も挑戦している問題に対する効果的なガイダンスが欠如し、学習効率と上限性能の両方が制限される。
そこで我々は,政策最適化プロセス内に動的教育フィードバックループを生成する新しいアルゴリズムであるCLPO(Curriculum-Guided Learning for Policy Optimization)を提案する。
CLPOのコアは、モデル自身のロールアウト性能を活用してリアルタイムの難易度評価を行い、オンラインカリキュラムを構築する。
このカリキュラムはアダプティブ・イシュー・リストラクチャリング(Adaptive Problem Restructuring)メカニズムを導き、モデルが自身の教師として機能する。
我々のアプローチは、静的トレーニング手順を、モデルの能力と共進化する動的なプロセスに変換する。
実験により、CLPOは8つの挑戦的な数学的および一般的な推論ベンチマークで最先端のパフォーマンスを達成し、平均パス@1が他の手法よりも6.96%向上し、より有能な推論モデルをより効率的に訓練する可能性を示している。
関連論文リスト
- VL-Cogito: Progressive Curriculum Reinforcement Learning for Advanced Multimodal Reasoning [69.44871115752055]
本稿では,PCuRL(Progressive Curriculum Reinforcement Learning)フレームワークを用いて学習した高度なマルチモーダル推論モデルを提案する。
PCuRLは、難易度が徐々に増大するタスクを通じてモデルを体系的にガイドし、多様なマルチモーダルコンテキストにおける推論能力を大幅に向上させる。
本フレームワークは,(1)連続するRLトレーニング段階におけるトレーニング難度を動的に調整するオンライン難易度重み付け機構,(2)タスク複雑度に応じて推論経路長を適応的に調整する動的長報奨機構,の2つの重要なイノベーションを紹介する。
論文 参考訳(メタデータ) (2025-07-30T12:23:21Z) - GHPO: Adaptive Guidance for Stable and Efficient LLM Reinforcement Learning [15.43938821214447]
RLVR(Reinforcement Learning with Verifiable Rewards)は、最近、大規模言語モデル(LLM)の自己改善を促進するための強力なパラダイムとして登場した。
本稿では,新しい困難に配慮した強化学習フレームワークであるGHPOについて紹介する。
GHPOは、適応的なプロンプトリファインメントを用いて、目標とするガイダンスを提供することにより、タスクの難易度を動的に校正する。
論文 参考訳(メタデータ) (2025-07-14T08:10:00Z) - Reward-free World Models for Online Imitation Learning [25.304836126280424]
本研究では,報酬のない世界モデルを活用したオンライン模倣学習手法を提案する。
提案手法は, 復元を伴わない潜在空間における環境力学を学習し, 効率的かつ高精度なモデリングを可能にする。
DMControl,myoSuite, ManiSkill2 など,様々なベンチマークを用いて本手法の評価を行い,既存手法と比較して優れた実証性能を示した。
論文 参考訳(メタデータ) (2024-10-17T23:13:32Z) - Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。