論文の概要: Prompt Curriculum Learning for Efficient LLM Post-Training
- arxiv url: http://arxiv.org/abs/2510.01135v1
- Date: Wed, 01 Oct 2025 17:24:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.687386
- Title: Prompt Curriculum Learning for Efficient LLM Post-Training
- Title(参考訳): 効率的なLDM後学習のためのプロンプトカリキュラム学習
- Authors: Zhaolin Gao, Joongwon Kim, Wen Sun, Thorsten Joachims, Sid Wang, Richard Yuanzhe Pang, Liang Tan,
- Abstract要約: 本稿では,学習価値モデルを用いて中間微分プロンプトを選択するアルゴリズムであるPrompt Curriculum Learning (PCL)を紹介する。
我々は,PCLがRLの間,より困難なプロンプトに集中できることを示す。
- 参考スコア(独自算出の注目度): 30.19003037220951
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce Prompt Curriculum Learning (PCL), a lightweight reinforcement learning (RL) algorithm that selects intermediate-difficulty prompts using a learned value model to post-train language models. Since post-training LLMs via RL remains sensitive to batching and prompt selection strategies, we first conduct a series of systematic experiments where we (1) determine the optimal training batch size that balances generation efficiency and gradient quality and (2) establish the importance of focusing on prompts of intermediate difficulty for the policy. We build upon these results to design PCL, which identifies prompts of intermediate difficulty for the current policy in an on-policy manner by using a value model that is concurrently updated based on the current policy. By focusing on informative prompts that yield high effective ratios, PCL achieves either the highest performance or requires significantly less time to reach comparable performance to its counterparts. Compared to rollout-based filtering methods, PCL avoids costly rollouts and achieves $12.1\times$ and $16.9\times$ faster speed on identifying intermediate-difficulty prompts when training on MATH and DeepScaleR, respectively. We further demonstrate that our value model accurately predicts prompt difficulty and allows PCL to focus on progressively more challenging prompts during RL. Our results present a new methodology that delivers improved tradeoff between upper-bound performance and efficiency for reasoning-focused RL.
- Abstract(参考訳): 本稿では,RLアルゴリズムであるPrompt Curriculum Learning(PCL)を紹介し,学習後の言語モデルに学習値モデルを用いて中間微分プロンプトを選択する。
RL による後学習 LLM はバッチ処理に敏感なままであり、まず、(1) 生成効率と勾配品質のバランスをとる最適な訓練バッチサイズを決定するための一連の系統的な実験を行い、(2) 政策の中間的難易度に焦点を合わせることの重要性を確立する。
我々はこれらの結果に基づいてPCLを設計し、現在の方針に基づいて同時に更新される値モデルを用いて、現在の政策の中間的困難をオン政治的に認識する。
高い有効比をもたらす情報的プロンプトに焦点を合わせることで、PCLは最高性能を達成するか、それと同等の性能に達するのにかなり少ない時間を要す。
ロールアウトベースのフィルタリング手法と比較して、PCLはコストのかかるロールアウトを回避し、MATHとDeepScaleRでトレーニングする際の中間微分プロンプトを高速に識別する12.1\times$と16.9\times$を達成する。
さらに、我々の値モデルが即時困難を正確に予測し、PCLがRL中に徐々に挑戦的なプロンプトに集中できるようにすることを実証する。
提案手法は, 推論に着目したRLにおける上界性能と効率のトレードオフを改善する手法である。
関連論文リスト
- CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs [53.749193998004166]
カリキュラム学習は,大規模言語モデルの学習効率を高める上で重要な役割を担っている。
収束を加速し,計算オーバーヘッドを最小限に抑えるためにベイズ後続推定を用いた効率的な学習法であるCurESを提案する。
論文 参考訳(メタデータ) (2025-10-01T15:41:27Z) - Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [62.579951798437115]
本研究では任意のプロンプトの反復的近似評価について検討する。
Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。
MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文 参考訳(メタデータ) (2025-07-07T03:20:52Z) - What Matters for Batch Online Reinforcement Learning in Robotics? [65.06558240091758]
政策改善のために、自律的に収集された大量のデータから学習できることは、真にスケーラブルなロボット学習を可能にするという約束を支えている。
これまで、オンラインRL問題に模倣学習とフィルタ模倣学習を適用してきた。
これらの軸が自律的なデータ量でパフォーマンスとスケーリングにどのように影響するかを分析します。
論文 参考訳(メタデータ) (2025-05-12T21:24:22Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。