論文の概要: Breaking the Exploration Bottleneck: Rubric-Scaffolded Reinforcement Learning for General LLM Reasoning
- arxiv url: http://arxiv.org/abs/2508.16949v1
- Date: Sat, 23 Aug 2025 08:47:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.269164
- Title: Breaking the Exploration Bottleneck: Rubric-Scaffolded Reinforcement Learning for General LLM Reasoning
- Title(参考訳): 一般LLM推論のためのルーブリック・スカフォールド強化学習
- Authors: Yang Zhou, Sunzhu Li, Shunyu Liu, Wenkai Fang, Jiale Zhao, Jingwen Yang, Jianwei Lv, Kongcheng Zhang, Yihe Zhou, Hengtong Lu, Wei Chen, Yan Xie, Mingli Song,
- Abstract要約: 大規模言語モデル(LLM)は、推論能力の出現を促進するために強化学習(RL)の可能性を強調している。
大規模言語モデル(LLM)の最近の進歩は、推論能力の出現を促進するためにRLの可能性を強調している。
本稿では,探索のボトルネックを突破するための新しい指導的足場構築フレームワークを提案する。
- 参考スコア(独自算出の注目度): 43.585741773885424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Large Language Models (LLMs) have underscored the potential of Reinforcement Learning (RL) to facilitate the emergence of reasoning capabilities. Despite the encouraging results, a fundamental dilemma persists as RL improvement relies on learning from high-quality samples, yet the exploration for such samples remains bounded by the inherent limitations of LLMs. This, in effect, creates an undesirable cycle in which what cannot be explored cannot be learned. In this work, we propose Rubric-Scaffolded Reinforcement Learning (RuscaRL), a novel instructional scaffolding framework designed to break the exploration bottleneck for general LLM reasoning. Specifically, RuscaRL introduces checklist-style rubrics as (1) explicit scaffolding for exploration during rollout generation, where different rubrics are provided as external guidance within task instructions to steer diverse high-quality responses. This guidance is gradually decayed over time, encouraging the model to internalize the underlying reasoning patterns; (2) verifiable rewards for exploitation during model training, where we can obtain robust LLM-as-a-Judge scores using rubrics as references, enabling effective RL on general reasoning tasks. Extensive experiments demonstrate the superiority of the proposed RuscaRL across various benchmarks, effectively expanding reasoning boundaries under the best-of-N evaluation. Notably, RuscaRL significantly boosts Qwen-2.5-7B-Instruct from 23.6 to 50.3 on HealthBench-500, surpassing GPT-4.1. Furthermore, our fine-tuned variant on Qwen3-30B-A3B-Instruct achieves 61.1 on HealthBench-500, outperforming leading LLMs including OpenAI-o3.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、推論能力の出現を促進するために強化学習(RL)の可能性を強調している。
奨励的な結果にもかかわらず、RLの改善は高品質なサンプルからの学習に依存しているため、基本的なジレンマは継続するが、そのようなサンプルの探索はLLMの固有の制限によって制限されている。
これは事実上、探索できないものは学べない、望ましくないサイクルを生み出す。
本研究では,LLM推論の探索ボトルネックを突破する新しい指導用足場フレームワークであるRubric-Scaffolded Reinforcement Learning (RuscaRL)を提案する。
特に、RuscaRLでは、(1)ロールアウト生成時の探索のための明示的な足場としてチェックリストスタイルのルーリックを導入している。
このガイダンスは、時間とともに徐々に減衰し、モデルに基礎となる推論パターンを内在化させるよう促す; (2) モデルトレーニング中の搾取に対する検証可能な報酬を与える; ルーブリックを基準として堅牢なLCM-as-a-Judgeスコアを得ることができ、一般的な推論タスクにおいて有効なRLを可能にする。
広範囲な実験により、様々なベンチマークで提案されたRuscaRLの優位性を実証し、Nの最良の評価の下で推論境界を効果的に拡張した。
特に、RuscaRLはQwen-2.5-7B-InstructをHealthBench-500で23.6から50.3に格上げし、GPT-4.1を上回った。
さらに,Qwen3-30B-A3B-InstructではHealthBench-500で61.1を達成し,OpenAI-o3などのLLMよりも優れていた。
関連論文リスト
- RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [86.30192066451256]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - No Free Lunch: Rethinking Internal Feedback for LLM Reasoning [12.881043910316787]
強化学習は、推論を改善するために大規模言語モデル(LLM)の訓練後において強力なパラダイムとして登場した。
内的フィードバック(RLIF)からの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は,外的報酬ではなく,本質的なモデル由来の信号にのみ依存する手法である。
論文 参考訳(メタデータ) (2025-06-20T17:59:52Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。