論文の概要: Selector-Guided Autonomous Curriculum for One-Shot Reinforcement Learning from Verifiable Rewards
- arxiv url: http://arxiv.org/abs/2605.01823v1
- Date: Sun, 03 May 2026 11:10:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.951827
- Title: Selector-Guided Autonomous Curriculum for One-Shot Reinforcement Learning from Verifiable Rewards
- Title(参考訳): 検証されたリワードからのワンショット強化学習のためのセレクタガイド付き自律カリキュラム
- Authors: Rudray Dave, Vedang Dubey, Smit Deoghare, Sudhakar Mishra,
- Abstract要約: RLVR(Reinforcement Learning from Verifiable Rewards)は,Large Language Models(LLMs)の算数推論スキルを増強するための,非常に効果的な手法として確立されている。
静的な報酬分散の代わりに、成功確率、報酬分散、出力の不一致、意味的困難度からなる多次元特徴空間上で学習可能なセレクタモデルを用いるセレクタガイド自律カリキュラム(SGAC)アプローチを提案する。
我々のフレームワークはHendrycks MATHベンチマークを用いて評価され、Qwen2.5-Math-1.5Bモデルがベースラインとして機能する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, Reinforcement Learning from Verifiable Rewards (RLVR) has been established as a highly effective technique for augmenting the math reasoning skills of Large Language Models (LLMs) based on a single instance. Current state-of-the-art 1-shot RLVR models adopt heuristics for selecting instances, mostly based on historical variance in rewards, which we find to be inherently misleading as a measure of transferability value. In this paper, we propose a Selector-Guided Autonomous Curriculum (SGAC) approach, which employs a learnable selector model on a multi-dimensional feature space consisting of success probability, reward variance, output disagreement (entropy), and semantic difficulty level, instead of the static reward variance heuristic. In our empirical evaluation on pools of candidate problems, we observed that output disagreement, rather than reward variance, is the strongest predictor of reasoning gains in subsequent iterations. Leveraging this finding, we develop an autonomous curriculum algorithm for dynamically siphoning candidate problems from a large pool, ranking them by the learned selector, and running micro-bursts of 1-shot GRPO. Our framework is evaluated using the Hendrycks MATH benchmark, with the Qwen2.5-Math-1.5B model serving as the baseline. Our framework obtains an accuracy of 68.0\% on the hold-out dataset, which is better than the accuracy obtained from the state-of-the-art model, 64.0\%, as well as the 1-shot RLVR checkpoint proposed by Wang et al., which achieved an accuracy of 66.0\%. The results confirm that entropy-based intelligent data curation leads to strict reasoning improvement over static training methods, particularly in severely limited data conditions.
- Abstract(参考訳): 近年,LLVR(Reinforcement Learning from Verifiable Rewards)は,大規模言語モデル(LLM)の算数推論スキルを1つのインスタンスで強化する手法として確立されている。
現在の最先端の1ショットRLVRモデルは、主に報酬の歴史的分散に基づくインスタンスの選択にヒューリスティックスを採用しており、転送可能性値の尺度として本質的に誤解を招く。
本稿では,SGAC(Selector-Guided Autonomous Curriculum)アプローチを提案する。これは,静的な報酬分散ヒューリスティックの代わりに,成功確率,報酬分散,出力不一致(エントロピー),意味的困難度からなる多次元特徴空間上で学習可能なセレクタモデルを用いる。
候補問題のプールに関する実証的な評価では、報酬分散よりも出力不一致が、その後の反復における推論利得の最も強い予測因子であることがわかった。
そこで本研究では,大規模プールから候補問題を動的にシフォンし,学習したセレクタでランク付けし,マイクロバーストを1ショットGRPOで実行するための,自律的なカリキュラムアルゴリズムを開発した。
我々のフレームワークはHendrycks MATHベンチマークを用いて評価され、Qwen2.5-Math-1.5Bモデルがベースラインとして機能する。
本フレームワークは, ホールドアウトデータセットにおける68.0\%の精度を, 最先端モデル64.0\%の精度, Wangらによって提案された1ショットRLVRチェックポイントよりも高い精度で取得し, 66.0\%の精度を達成した。
その結果, エントロピーに基づくインテリジェントなデータキュレーションが静的トレーニング法, 特に厳密なデータ条件において, 厳格な推論改善につながることを確認した。
関連論文リスト
- Rewards as Labels: Revisiting RLVR from a Classification Perspective [10.774056916074441]
検証可能なリワードによる強化学習は、最近、複雑な推論タスクにおける大規模言語モデルの能力を進歩させた。
本稿では,評価可能な報酬をスカラーウェイトではなくカテゴリラベルとして再考する新しいフレームワークであるRewards as Labels (REAL)を提案する。
解析の結果,REALは単調かつ有界な勾配重み付けを誘導し,ロールアウト間のバランスの取れた勾配割り当てを可能にすることがわかった。
論文 参考訳(メタデータ) (2026-02-05T13:11:36Z) - SPARK: Stepwise Process-Aware Rewards for Reference-Free Reinforcement Learning [39.1720897614261]
密度の高いステップレベルのフィードバックを提供するプロセス報酬モデル(PRM)は、強化学習の可能性を示している。
筆者らはSPARK(SPARK)という3段階のフレームワークを提案し、第1段階ではジェネレータモデルが多様な解を生成し、検証器モデルがそれらを評価する。
ステップレベルで複数の独立した検証を集約することで、根底的な結果管理を超越したプロセス報酬モデルのトレーニングデータが得られることを示す。
論文 参考訳(メタデータ) (2025-12-02T21:30:47Z) - A Mathematical Framework for Custom Reward Functions in Job Application Evaluation using Reinforcement Learning [0.8709142317087694]
本稿では,小言語モデルに基づくより洗練された履歴書評価モデルを構築するための2段階のプロセスについて述べる。
このモデルはカスタム報酬関数上でGRPOを使用して微調整される。
その結果, GRPO分析モデルでは実世界の有効性が顕著に示され, 最終精度は91%であった。
論文 参考訳(メタデータ) (2025-11-20T06:06:30Z) - Discriminative Policy Optimization for Token-Level Reward Models [55.98642069903191]
プロセス報酬モデル(PRM)は、結果報酬モデル(ORM)と比較して、よりきめ細かい監督を提供する。
Q-RMは、微粒なアノテーションに頼ることなく、優先データからトークンレベルのQ関数を明示的に学習する。
Q-RMによる強化学習は、トレーニング効率を大幅に向上させ、GSM8KでのORMの12倍、MATHでのステップレベルPRMの11倍の収束を実現した。
論文 参考訳(メタデータ) (2025-05-29T11:40:34Z) - Reinforcement Learning for Reasoning in Large Language Models with One Training Example [117.86853102104256]
1つのトレーニング例(1ショットRLVR)を用いた強化学習は,大規模言語モデル(LLM)の算数推論能力の向上に有効であることを示す。
1ショットRLVRにおける興味深い現象として、クロスカテゴリの一般化、自己回帰の頻度の増加、テスト性能の向上の持続などを挙げる。
論文 参考訳(メタデータ) (2025-04-29T09:24:30Z) - InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling [66.3072381478251]
Reward Hacking(報酬の過度な最適化)は依然として重要な課題だ。
本稿では,報奨モデル,すなわちInfoRMのためのフレームワークを提案する。
InfoRMの過度な最適化検出機構は、有効であるだけでなく、幅広いデータセットにわたって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-02-14T17:49:07Z) - Leveraging Uncertainty Estimates To Improve Classifier Performance [4.4951754159063295]
バイナリ分類では、正のクラスのモデルスコアが、アプリケーション要求に基づいて選択されたしきい値を超えるかどうかに基づいて、インスタンスのラベルを予測する。
しかし、モデルスコアは真の肯定率と一致しないことが多い。
これは特に、クラス間の差分サンプリングを含むトレーニングや、トレインとテスト設定間の分散ドリフトがある場合に当てはまる。
論文 参考訳(メタデータ) (2023-11-20T12:40:25Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。