論文の概要: Adaptive Guidance Accelerates Reinforcement Learning of Reasoning Models
- arxiv url: http://arxiv.org/abs/2506.13923v1
- Date: Mon, 16 Jun 2025 19:03:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.215511
- Title: Adaptive Guidance Accelerates Reinforcement Learning of Reasoning Models
- Title(参考訳): 適応誘導による推論モデルの強化学習促進
- Authors: Vaskar Nath, Elaine Lau, Anisha Gunjal, Manasi Sharma, Nikhil Baharte, Sean Hendryx,
- Abstract要約: 検証可能な報酬(RLVR)に基づく強化学習で学習した推論モデルを用いて,新たな問題を解決する方法について検討する。
RLVRは、(1)pass@$k$をpass@1に圧縮し、(2)"capability gain"を通じて、モデルが以前、$k$で解決できなかった新しい問題を解決することを学習する、という2つの主要な手段を通してパフォーマンスを駆動する。
- 参考スコア(独自算出の注目度): 3.207886496235499
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the process through which reasoning models trained with reinforcement learning on verifiable rewards (RLVR) can learn to solve new problems. We find that RLVR drives performance through two main means: (1) by compressing pass@$k$ into pass@1 and (2) via "capability gain" in which models learn to solve new problems that they previously could not solve even at high $k$. We find that while capability gain exists across model scales, learning to solve new problems is primarily driven through self-distillation. We demonstrate these findings across model scales ranging from 0.5B to 72B on >500,000 reasoning problems with prompts and verifiable final answers across math, science, and code domains. We further show that we can significantly improve pass@$k$ rates by leveraging natural language guidance for the model to consider within context while still requiring the model to derive a solution chain from scratch. Based of these insights, we derive $\text{Guide}$ - a new class of online training algorithms. $\text{Guide}$ adaptively incorporates hints into the model's context on problems for which all rollouts were initially incorrect and adjusts the importance sampling ratio for the "off-policy" trajectories in order to optimize the policy for contexts in which the hints are no longer present. We describe variants of $\text{Guide}$ for GRPO and PPO and empirically show that Guide-GRPO on 7B and 32B parameter models improves generalization over its vanilla counterpart with up to 4$\%$ macro-average improvement across math benchmarks. We include careful ablations to analyze $\text{Guide}$'s components and theoretically analyze Guide's learning efficiency.
- Abstract(参考訳): 検証可能な報酬(RLVR)に基づく強化学習で学習した推論モデルを用いて,新たな問題を解決する方法について検討する。
RLVRは、(1)pass@$k$をpass@1に圧縮し、(2)"capability gain"を通じて、モデルが以前、$k$で解決できなかった新しい問題を解決することを学習する、という2つの主要な手段を通してパフォーマンスを駆動する。
能力の獲得はモデルスケールにまたがって存在するが、新しい問題を解決するための学習は、主に自己蒸留によって行われる。
これらの結果は,500,000の推論問題に対する0.5Bから72Bまでのモデルスケールにわたって,数学,科学,コード領域におけるプロンプトと検証可能な最終回答を用いて実証された。
さらに我々は、モデルがスクラッチからソリューションチェーンを導出する必要があるにもかかわらず、コンテキスト内で考慮すべきモデルの自然言語ガイダンスを活用することで、pass@k$ rateを大幅に改善できることを示します。
これらの知見に基づいて、オンライントレーニングアルゴリズムの新しいクラスである$\text{Guide}$を導出します。
$\text{Guide}$は、すべてのロールアウトが最初に間違っていた問題に関するモデルのコンテキストにヒントを適応的に組み込んで、ヒントが存在しないコンテキストに対するポリシーを最適化するために、"オフ・ポリティ"軌道に対する重要サンプリング比率を調整する。
GRPO と PPO に対する $\text{Guide}$ の変種を記述し、7B と 32B のパラメータモデルにおける Guide-GRPO は、最大 4$\% のマクロ平均値の改善で、バニラに対する一般化を改善することを実証的に示す。
例えば、$\text{Guide}$のコンポーネントを分析し、理論上はガイドの学習効率を分析する。
関連論文リスト
- Intention-Conditioned Flow Occupancy Models [69.79049994662591]
大規模な事前学習は、今日の機械学習研究のやり方を根本的に変えた。
同じフレームワークを強化学習に適用することは、RLの中核的な課題に対処するための魅力的な方法を提供するので、魅力的です。
生成AIの最近の進歩は、高度に複雑な分布をモデリングするための新しいツールを提供している。
論文 参考訳(メタデータ) (2025-06-10T15:27:46Z) - Entropy-Based Adaptive Weighting for Self-Training [15.089334734753677]
自己学習のためのエントロピーに基づく適応重み付け(EAST)を提案する。
EASTは、自己学習中に不確実なデータを優先順位付けするために設計された適応的な重み付け戦略である。
我々はGSM8KおよびMATHベンチマークに対するアプローチを評価する。
論文 参考訳(メタデータ) (2025-03-31T10:04:35Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - T1: Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。
既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。
我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文 参考訳(メタデータ) (2025-01-20T18:33:33Z) - Learning Goal-Conditioned Representations for Language Reward Models [10.94845204766088]
対照的な$textitgoal-conditioned$でトレーニング報酬モデル(RM)を提案する。
RM表現のこのトレーニング方法により、textitsteerability$が向上し、特定の目標状態を達成するアクションの可能性を評価することができる。
さらに、これらの表現は、希望する将来の目標状態に条件付けすることで、きめ細かい制御を行うことができる。
論文 参考訳(メタデータ) (2024-07-18T20:23:11Z) - Scalable Learning of Item Response Theory Models [48.91265296134559]
項目応答理論(IRT)モデルは、分類データから、$m$テスト項目の遅延困難特性とともに、$n$試験の潜時能力を評価することを目的としている。
我々はこれらのモデルの類似性をロジスティック回帰に利用し、コアセットと呼ばれる小さな重み付き部分集合を用いて正確に近似することができる。
論文 参考訳(メタデータ) (2024-03-01T17:12:53Z) - Model-Augmented Q-learning [112.86795579978802]
モデルベースRLの構成要素を付加したMFRLフレームワークを提案する。
具体的には、$Q$-valuesだけでなく、共有ネットワークにおける遷移と報酬の両方を見積もる。
提案手法は,MQL (Model-augmented $Q$-learning) とよばれる提案手法により,真に報いられた学習によって得られる解と同一のポリシ不変解が得られることを示す。
論文 参考訳(メタデータ) (2021-02-07T17:56:50Z) - Improving Robustness and Generality of NLP Models Using Disentangled
Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。
本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。
提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文 参考訳(メタデータ) (2020-09-21T02:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。