Fugu-MT 論文翻訳(概要): Actor-Curator: Co-adaptive Curriculum Learning via Policy-Improvement Bandits for RL Post-Training

論文の概要: Actor-Curator: Co-adaptive Curriculum Learning via Policy-Improvement Bandits for RL Post-Training

arxiv url: http://arxiv.org/abs/2602.20532v1
Date: Tue, 24 Feb 2026 04:19:48 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.600106
Title: Actor-Curator: Co-adaptive Curriculum Learning via Policy-Improvement Bandits for RL Post-Training
Title（参考訳）: アクター・キュレーター:RLポストトライニングのためのポリシー改善帯域による協調適応型カリキュラム学習
Authors: Zhengyao Gu, Jonathan Light, Raul Astudillo, Ziyu Ye, Langzhou He, Henry Peng Zou, Wei Cheng, Santiago Paternain, Philip S. Yu, Yisong Yue,
Abstract要約: ACTOR-CURATORは、大規模言語モデルの強化学習のためのスケーラブルで完全に自動化されたカリキュラム学習フレームワークである。経験的に、ACTOR-CURATORは一貫して一様サンプリングと強力なカリキュラムベースラインを上回っている。
参考スコア（独自算出の注目度）: 63.34044358216334
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Post-training large foundation models with reinforcement learning typically relies on massive and heterogeneous datasets, making effective curriculum learning both critical and challenging. In this work, we propose ACTOR-CURATOR, a scalable and fully automated curriculum learning framework for reinforcement learning post-training of large language models (LLMs). ACTOR-CURATOR learns a neural curator that dynamically selects training problems from large problem banks by directly optimizing for expected policy performance improvement. We formulate problem selection as a non-stationary stochastic bandit problem, derive a principled loss function based on online stochastic mirror descent, and establish regret guarantees under partial feedback. Empirically, ACTOR-CURATOR consistently outperforms uniform sampling and strong curriculum baselines across a wide range of challenging reasoning benchmarks, demonstrating improved training stability and efficiency. Notably, it achieves relative gains of 28.6% on AIME2024 and 30.5% on ARC-1D over the strongest baseline and up to 80% speedup. These results suggest that ACTOR-CURATOR is a powerful and practical approach for scalable LLM post-training.
Abstract（参考訳）: 強化学習を用いた後トレーニング後の大規模な基礎モデルは、通常、大規模で異質なデータセットに依存しており、効果的なカリキュラム学習を批判的かつ困難なものにしている。本稿では,大規模言語モデル(LLM)の強化学習のための,スケーラブルで完全に自動化されたカリキュラム学習フレームワークであるACTOR-CURATORを提案する。 ACTOR-CURATORは、期待される政策性能改善を直接最適化することにより、大きな問題バンクからトレーニング問題を動的に選択する神経キュレータを学習する。非定常確率的バンディット問題として問題選択を定式化し、オンライン確率的ミラー降下に基づく原理的損失関数を導出し、部分的なフィードバックの下で後悔の保証を確立する。経験的に、ACTOR-CURATORは、様々な挑戦的推論ベンチマークで一様サンプリングと強力なカリキュラムベースラインを一貫して上回り、トレーニングの安定性と効率性を向上している。特に、AIME2024では28.6%、ARC-1Dでは30.5%で最強のベースラインで最大80%のスピードアップを達成した。これらの結果から,ACTOR-CURATORは拡張性LLMポストトレーニングのための強力かつ実用的なアプローチであることが示唆された。

関連論文リスト

Buffer Matters: Unleashing the Power of Off-Policy Reinforcement Learning in Large Language Model Reasoning [12.863583402455008]
Batch Adaptation Policy Optimization (BAPO)は、大規模言語モデルのトレーニング後のデータ効率を改善するための、オフポリティックなRLVRフレームワークである。歴史的に困難なサンプルを再評価し、高品質なサンプルを再利用することで、トレーニングバッチを動的に選択する。 BAPOは数学、計画、視覚的推論のタスクでGRPOよりも平均12.5%改善している。
論文参考訳（メタデータ） (2026-02-24T09:35:43Z)
Contextual Rollout Bandits for Reinforcement Learning with Verifiable Rewards [69.74686029941881]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデルの推論能力を改善するための効果的なパラダイムである。トレーニングを通して高価値ロールアウトを適応的に選択する統合型ニューラルネットワークスケジューリングフレームワークを提案する。 6つの数学的推論ベンチマークの実験では、複数のRLVR最適化手法で性能と訓練効率が一貫した向上を示した。
論文参考訳（メタデータ） (2026-02-09T10:51:58Z)
Resource-Efficient Reinforcement for Reasoning Large Language Models via Dynamic One-Shot Policy Refinement [21.073482007189504]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な性能を示した。検証可能な報酬(RLVR)の下での強化学習は、モデル行動と推論連鎖を整合させるための原則的な枠組みとして現れつつある。その約束にもかかわらず、RLVRは厳しい資源集約であり、広範な報奨信号を必要とし、訓練中にかなりのロールアウトコストを発生させる。
論文参考訳（メタデータ） (2026-01-31T16:51:50Z)
Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。 Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文参考訳（メタデータ） (2025-10-30T11:53:08Z)
Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR [110.90317717368264]
RLVRトレーニングのためのオンライン変分問題合成(SvS)戦略を提案する。この戦略は、トレーニング中のポリシーのエントロピーを効果的に維持し、標準のRLVRと比較してPass@kを大幅に改善する。
論文参考訳（メタデータ） (2025-08-19T17:42:45Z)
Actor-Critic for Continuous Action Chunks: A Reinforcement Learning Framework for Long-Horizon Robotic Manipulation with Sparse Reward [85.84943447589511]
本稿では,高次元連続行動系列を生成するための新しいRLフレームワークであるAC3(Actor-Critic for Continuous Chunks)を紹介する。この学習プロセスを安定させ、データ効率を高めるため、AC3はアクターと批評家の両方に目標安定化機構を組み込む。
論文参考訳（メタデータ） (2025-08-15T01:27:15Z)
GHPO: Adaptive Guidance for Stable and Efficient LLM Reinforcement Learning [15.43938821214447]
RLVR(Reinforcement Learning with Verifiable Rewards)は、最近、大規模言語モデル(LLM)の自己改善を促進するための強力なパラダイムとして登場した。本稿では,新しい困難に配慮した強化学習フレームワークであるGHPOについて紹介する。 GHPOは、適応的なプロンプトリファインメントを用いて、目標とするガイダンスを提供することにより、タスクの難易度を動的に校正する。
論文参考訳（メタデータ） (2025-07-14T08:10:00Z)
Online Difficulty Filtering for Reasoning Oriented Reinforcement Learning [8.537540092998311]
RORL(Reasoning-Oriented Reinforcement Learning)は大規模言語モデル(LLM)の推論能力を高める RORLトレーニングの有効性を最大化するために,訓練モデルがフライ時の中間精度を達成する問題でバッチを計算できることが示される。
論文参考訳（メタデータ） (2025-04-04T11:52:05Z)
Dynamic Learning Rate for Deep Reinforcement Learning: A Bandit Approach [2.743898388459522]
深層強化学習(RL)では、学習速度は安定性と性能の両方に重大な影響を及ぼすが、環境と政策が進化するにつれて、トレーニング中に最適な価値がシフトする。標準崩壊スケジューラは単調収束を仮定し、しばしばこれらのダイナミクスと不一致し、早めまたは遅れた調整をもたらす。 LRRLは、学習手順ではなく、政策性能に基づいて動的に学習率を選択するメタ学習手法である。
論文参考訳（メタデータ） (2024-10-16T14:15:28Z)
Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。 SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文参考訳（メタデータ） (2024-09-19T17:16:21Z)
Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文参考訳（メタデータ） (2022-09-24T14:22:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。