論文の概要: Actor-Curator: Co-adaptive Curriculum Learning via Policy-Improvement Bandits for RL Post-Training
- arxiv url: http://arxiv.org/abs/2602.20532v1
- Date: Tue, 24 Feb 2026 04:19:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.600106
- Title: Actor-Curator: Co-adaptive Curriculum Learning via Policy-Improvement Bandits for RL Post-Training
- Title(参考訳): アクター・キュレーター:RLポストトライニングのためのポリシー改善帯域による協調適応型カリキュラム学習
- Authors: Zhengyao Gu, Jonathan Light, Raul Astudillo, Ziyu Ye, Langzhou He, Henry Peng Zou, Wei Cheng, Santiago Paternain, Philip S. Yu, Yisong Yue,
- Abstract要約: ACTOR-CURATORは、大規模言語モデルの強化学習のためのスケーラブルで完全に自動化されたカリキュラム学習フレームワークである。
経験的に、ACTOR-CURATORは一貫して一様サンプリングと強力なカリキュラムベースラインを上回っている。
- 参考スコア(独自算出の注目度): 63.34044358216334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training large foundation models with reinforcement learning typically relies on massive and heterogeneous datasets, making effective curriculum learning both critical and challenging. In this work, we propose ACTOR-CURATOR, a scalable and fully automated curriculum learning framework for reinforcement learning post-training of large language models (LLMs). ACTOR-CURATOR learns a neural curator that dynamically selects training problems from large problem banks by directly optimizing for expected policy performance improvement. We formulate problem selection as a non-stationary stochastic bandit problem, derive a principled loss function based on online stochastic mirror descent, and establish regret guarantees under partial feedback. Empirically, ACTOR-CURATOR consistently outperforms uniform sampling and strong curriculum baselines across a wide range of challenging reasoning benchmarks, demonstrating improved training stability and efficiency. Notably, it achieves relative gains of 28.6% on AIME2024 and 30.5% on ARC-1D over the strongest baseline and up to 80% speedup. These results suggest that ACTOR-CURATOR is a powerful and practical approach for scalable LLM post-training.
- Abstract(参考訳): 強化学習を用いた後トレーニング後の大規模な基礎モデルは、通常、大規模で異質なデータセットに依存しており、効果的なカリキュラム学習を批判的かつ困難なものにしている。
本稿では,大規模言語モデル(LLM)の強化学習のための,スケーラブルで完全に自動化されたカリキュラム学習フレームワークであるACTOR-CURATORを提案する。
ACTOR-CURATORは、期待される政策性能改善を直接最適化することにより、大きな問題バンクからトレーニング問題を動的に選択する神経キュレータを学習する。
非定常確率的バンディット問題として問題選択を定式化し、オンライン確率的ミラー降下に基づく原理的損失関数を導出し、部分的なフィードバックの下で後悔の保証を確立する。
経験的に、ACTOR-CURATORは、様々な挑戦的推論ベンチマークで一様サンプリングと強力なカリキュラムベースラインを一貫して上回り、トレーニングの安定性と効率性を向上している。
特に、AIME2024では28.6%、ARC-1Dでは30.5%で最強のベースラインで最大80%のスピードアップを達成した。
これらの結果から,ACTOR-CURATORは拡張性LLMポストトレーニングのための強力かつ実用的なアプローチであることが示唆された。
関連論文リスト
- Buffer Matters: Unleashing the Power of Off-Policy Reinforcement Learning in Large Language Model Reasoning [12.863583402455008]
Batch Adaptation Policy Optimization (BAPO)は、大規模言語モデルのトレーニング後のデータ効率を改善するための、オフポリティックなRLVRフレームワークである。
歴史的に困難なサンプルを再評価し、高品質なサンプルを再利用することで、トレーニングバッチを動的に選択する。
BAPOは数学、計画、視覚的推論のタスクでGRPOよりも平均12.5%改善している。
論文 参考訳(メタデータ) (2026-02-24T09:35:43Z) - Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR [110.90317717368264]
RLVRトレーニングのためのオンライン変分問題合成(SvS)戦略を提案する。
この戦略は、トレーニング中のポリシーのエントロピーを効果的に維持し、標準のRLVRと比較してPass@kを大幅に改善する。
論文 参考訳(メタデータ) (2025-08-19T17:42:45Z) - GHPO: Adaptive Guidance for Stable and Efficient LLM Reinforcement Learning [15.43938821214447]
RLVR(Reinforcement Learning with Verifiable Rewards)は、最近、大規模言語モデル(LLM)の自己改善を促進するための強力なパラダイムとして登場した。
本稿では,新しい困難に配慮した強化学習フレームワークであるGHPOについて紹介する。
GHPOは、適応的なプロンプトリファインメントを用いて、目標とするガイダンスを提供することにより、タスクの難易度を動的に校正する。
論文 参考訳(メタデータ) (2025-07-14T08:10:00Z) - Online Difficulty Filtering for Reasoning Oriented Reinforcement Learning [8.537540092998311]
RORL(Reasoning-Oriented Reinforcement Learning)は大規模言語モデル(LLM)の推論能力を高める
RORLトレーニングの有効性を最大化するために,訓練モデルがフライ時の中間精度を達成する問題でバッチを計算できることが示される。
論文 参考訳(メタデータ) (2025-04-04T11:52:05Z) - Dynamic Learning Rate for Deep Reinforcement Learning: A Bandit Approach [2.743898388459522]
深層強化学習(RL)では、学習速度は安定性と性能の両方に重大な影響を及ぼすが、環境と政策が進化するにつれて、トレーニング中に最適な価値がシフトする。
標準崩壊スケジューラは単調収束を仮定し、しばしばこれらのダイナミクスと不一致し、早めまたは遅れた調整をもたらす。
LRRLは、学習手順ではなく、政策性能に基づいて動的に学習率を選択するメタ学習手法である。
論文 参考訳(メタデータ) (2024-10-16T14:15:28Z) - Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。
完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。
SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文 参考訳(メタデータ) (2024-09-19T17:16:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。