論文の概要: Breaking the Exploration Bottleneck: Rubric-Scaffolded Reinforcement Learning for General LLM Reasoning
- arxiv url: http://arxiv.org/abs/2508.16949v2
- Date: Tue, 26 Aug 2025 10:52:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 13:17:04.055787
- Title: Breaking the Exploration Bottleneck: Rubric-Scaffolded Reinforcement Learning for General LLM Reasoning
- Title(参考訳): 一般LLM推論のためのルーブリック・スカフォールド強化学習
- Authors: Yang Zhou, Sunzhu Li, Shunyu Liu, Wenkai Fang, Jiale Zhao, Jingwen Yang, Jianwei Lv, Kongcheng Zhang, Yihe Zhou, Hengtong Lu, Wei Chen, Yan Xie, Mingli Song,
- Abstract要約: 大規模言語モデル(LLM)は、推論能力の出現を促進するために強化学習(RL)の可能性を強調している。
LLMの最近の進歩は、推論能力の出現を促進するためにRLの可能性を強調している。
本稿では,探索のボトルネックを突破するための新しい指導的足場構築フレームワークを提案する。
- 参考スコア(独自算出の注目度): 43.585741773885424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Large Language Models (LLMs) have underscored the potential of Reinforcement Learning (RL) to facilitate the emergence of reasoning capabilities. Despite the encouraging results, a fundamental dilemma persists as RL improvement relies on learning from high-quality samples, yet the exploration for such samples remains bounded by the inherent limitations of LLMs. This, in effect, creates an undesirable cycle in which what cannot be explored cannot be learned. In this work, we propose Rubric-Scaffolded Reinforcement Learning (RuscaRL), a novel instructional scaffolding framework designed to break the exploration bottleneck for general LLM reasoning. Specifically, RuscaRL introduces checklist-style rubrics as (1) explicit scaffolding for exploration during rollout generation, where different rubrics are provided as external guidance within task instructions to steer diverse high-quality responses. This guidance is gradually decayed over time, encouraging the model to internalize the underlying reasoning patterns; (2) verifiable rewards for exploitation during model training, where we can obtain robust LLM-as-a-Judge scores using rubrics as references, enabling effective RL on general reasoning tasks. Extensive experiments demonstrate the superiority of the proposed RuscaRL across various benchmarks, effectively expanding reasoning boundaries under the best-of-N evaluation. Notably, RuscaRL significantly boosts Qwen2.5-7B-Instruct from 23.6 to 50.3 on HealthBench-500, surpassing GPT-4.1. Furthermore, our fine-tuned variant on Qwen3-30B-A3B-Instruct achieves 61.1 on HealthBench-500, outperforming leading LLMs including OpenAI-o3. This work is still in progress, and we will release the code, the models, and the datasets soon.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、推論能力の出現を促進するために強化学習(RL)の可能性を強調している。
奨励的な結果にもかかわらず、RLの改善は高品質なサンプルからの学習に依存しているため、基本的なジレンマは継続するが、そのようなサンプルの探索はLLMの固有の制限によって制限されている。
これは事実上、探索できないものは学べない、望ましくないサイクルを生み出す。
本研究では,LLM推論の探索ボトルネックを突破する新しい指導用足場フレームワークであるRubric-Scaffolded Reinforcement Learning (RuscaRL)を提案する。
特に、RuscaRLでは、(1)ロールアウト生成時の探索のための明示的な足場としてチェックリストスタイルのルーリックを導入している。
このガイダンスは、時間とともに徐々に減衰し、モデルに基礎となる推論パターンを内在化させるよう促す; (2) モデルトレーニング中の搾取に対する検証可能な報酬を与える; ルーブリックを基準として堅牢なLCM-as-a-Judgeスコアを得ることができ、一般的な推論タスクにおいて有効なRLを可能にする。
広範囲な実験により、様々なベンチマークで提案されたRuscaRLの優位性を実証し、Nの最良の評価の下で推論境界を効果的に拡張した。
特に、RuscaRLはQwen2.5-7B-InstructをHealthBench-500で23.6から50.3に格上げし、GPT-4.1を上回った。
さらに,Qwen3-30B-A3B-InstructではHealthBench-500で61.1を達成し,OpenAI-o3などのLLMよりも優れていた。
この作業はまだ進行中で、間もなくコード、モデル、データセットをリリースします。
関連論文リスト
- Towards Sample-Efficient and Stable Reinforcement Learning for LLM-based Recommendation [56.92367609590823]
Long Chain-of-Thought (Long CoT)推論は、Large Language Models (LLMs)において有望であることを示している。
我々はLong CoTが本質的にシーケンシャルなレコメンデーションドメインに不適合であると主張している。
提案するRISER(Reinforced Item Space Exploration framework for Recommendation)を提案する。
論文 参考訳(メタデータ) (2026-01-31T10:02:43Z) - R^3: Replay, Reflection, and Ranking Rewards for LLM Reinforcement Learning [32.16683059021539]
大規模推論モデル(LRM)は、構造化推論によって多様で複雑な問題を解くことを目的としている。
グループベースの政策最適化手法の最近の進歩は、プロセスレベルのアノテーションに頼らず、安定した優位性推定を可能にすることを約束している。
本報告では,(1)群内優位性を維持するEmphcross-context underlinetextbfReplay戦略,(2)emphin-context self-underlinetextbfReflectionメカニズムの3つの方向に沿った強化学習機構を提案する。
論文 参考訳(メタデータ) (2026-01-27T13:55:34Z) - Do Not Step Into the Same River Twice: Learning to Reason from Trial and Error [13.24687763539952]
LTE (Learning to reason from Trial and Error) は、LLMが以前に生成した誤った回答と過剰な応答の問題を暗示するアプローチである。
Pass@1では6.38、Pass@kでは9.00、Qwen3-4B-Baseでは6つの数学ベンチマークで平均すると、通常のグループ相対ポリシー最適化(GRPO)よりも優れたLTEの有効性が検証された。
論文 参考訳(メタデータ) (2025-10-30T03:36:19Z) - RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [86.30192066451256]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。
TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。
我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文 参考訳(メタデータ) (2025-07-10T07:34:05Z) - No Free Lunch: Rethinking Internal Feedback for LLM Reasoning [12.881043910316787]
強化学習は、推論を改善するために大規模言語モデル(LLM)の訓練後において強力なパラダイムとして登場した。
内的フィードバック(RLIF)からの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は,外的報酬ではなく,本質的なモデル由来の信号にのみ依存する手法である。
論文 参考訳(メタデータ) (2025-06-20T17:59:52Z) - Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。
OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。
本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文 参考訳(メタデータ) (2025-02-10T18:57:29Z) - On the Emergence of Thinking in LLMs I: Searching for the Right Intuition [34.32871896067864]
自己学習による強化学習(RLSP)というポストトレーニングフレームワークを提案する。
RLSPは、推論プロセスの人間または合成的なデモンストレーションによる微調整、多種多様な効率的な推論行動を促進するための探索報酬信号の使用、報酬ハッキングを予防しながら正当性を確保するための結果検証器によるRLトレーニングの3段階を含む。
数学領域における実証的研究は、RLSPが推論を改善することを示している。
論文 参考訳(メタデータ) (2025-02-10T18:52:04Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。