論文の概要: Reward and Guidance through Rubrics: Promoting Exploration to Improve Multi-Domain Reasoning
- arxiv url: http://arxiv.org/abs/2511.12344v2
- Date: Tue, 18 Nov 2025 20:39:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 13:41:21.101454
- Title: Reward and Guidance through Rubrics: Promoting Exploration to Improve Multi-Domain Reasoning
- Title(参考訳): ルーブリックによるリワードとガイダンス:マルチドメイン推論改善のための探索の促進
- Authors: Baolong Bi, Shenghua Liu, Yiwei Wang, Siqian Tong, Lingrui Mei, Yuyao Ge, Yilong Xu, Jiafeng Guo, Xueqi Cheng,
- Abstract要約: マルチドメイン推論のためのフレームワークである $textbfRGR-GRPO (Reward and Guidance through rubrics) を提案する。
RGR-GRPOは、代替の報酬スキームやオフラインガイダンスにのみ依存するRLメソッドよりも一貫して優れている。
- 参考スコア(独自算出の注目度): 79.365697698062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in reinforcement learning (RL) have significantly improved the complex reasoning capabilities of large language models (LLMs). Despite these successes, existing methods mainly focus on single-domain RL (e.g., mathematics) with verifiable rewards (RLVR), and their reliance on purely online RL frameworks restricts the exploration space, thereby limiting reasoning performance. In this paper, we address these limitations by leveraging rubrics to provide both fine-grained reward signals and offline guidance. We propose $\textbf{RGR-GRPO}$ (Reward and Guidance through Rubrics), a rubric-driven RL framework for multi-domain reasoning. RGR-GRPO enables LLMs to receive dense and informative rewards while exploring a larger solution space during GRPO training. Extensive experiments across 14 benchmarks spanning multiple domains demonstrate that RGR-GRPO consistently outperforms RL methods that rely solely on alternative reward schemes or offline guidance. Compared with verifiable online RL baseline, RGR-GRPO achieves average improvements of +7.0%, +5.4%, +8.4%, and +6.6% on mathematics, physics, chemistry, and general reasoning tasks, respectively. Notably, RGR-GRPO maintains stable entropy fluctuations during off-policy training and achieves superior pass@k performance, reflecting sustained exploration and effective breakthrough beyond existing performance bottlenecks.
- Abstract(参考訳): 近年の強化学習(RL)は,大規模言語モデル(LLM)の複雑な推論能力を大幅に向上させた。
これらの成功にもかかわらず、既存の手法は主に検証可能な報酬(RLVR)を持つ単一ドメインのRL(例えば数学)に焦点を当てており、純粋にオンラインのRLフレームワークに依存しているため、探索空間が制限され、推論性能が制限される。
本稿では,ルーブリックを利用して,微細な報酬信号とオフラインガイダンスの両方を提供する。
マルチドメイン推論のためのルーリック駆動RLフレームワークである$\textbf{RGR-GRPO}$ (Reward and Guidance through Rubrics)を提案する。
RGR-GRPOは、GRPOトレーニング中により大きな解空間を探索しながら、LLMが密度が高く情報的な報酬を受け取ることを可能にする。
複数の領域にまたがる14のベンチマークに対する大規模な実験により、RGR-GRPOは代替の報酬スキームやオフラインガイダンスにのみ依存するRLメソッドよりも一貫して優れていることが示された。
検証可能なオンラインRLベースラインと比較すると、RGR-GRPOは、数学、物理学、化学、一般的な推論タスクにおいて、平均で+7.0%、+5.4%、+8.4%、+6.6%の改善を達成している。
特に、RGR-GRPOは、オフポリティトレーニング中に安定したエントロピー変動を維持し、優れたpass@kパフォーマンスを実現し、持続的な探索と既存のパフォーマンスボトルネックを超えた効果的なブレークスルーを反映している。
関連論文リスト
- XRPO: Pushing the limits of GRPO with Targeted Exploration and Exploitation [8.511469090666077]
GRPOのような強化学習アルゴリズムは、大規模言語モデル(LLM)推論の最近の進歩を促している。
既存のアプローチは、挑戦的なプロンプトに対する限られた探索に悩まされ、情報的なフィードバック信号が未公開のまま残されている。
本稿では,eXplore-eXploit GRPOについて述べる。
論文 参考訳(メタデータ) (2025-10-08T05:53:56Z) - Risk-Sensitive RL for Alleviating Exploration Dilemmas in Large Language Models [22.50153462109328]
Reinforcement Learning with Verifiable Rewards (RLVR) は,Large Language Models (LLMs) の強化に有効であることが証明された。
リスク感性強化学習フレームワークを導入する。
提案手法では,平均と最大報酬を補間するリスク探索の手法を用いて,新しいアルゴリズムを提案する。
注目すべきは、RS-GRPOの実装が簡単で、マイナーなコード修正しか必要としないことだ。
論文 参考訳(メタデータ) (2025-09-29T04:12:20Z) - Domain-Aware RAG: MoL-Enhanced RL for Efficient Training and Scalable Retrieval [5.640810636056805]
MoLERは、MoL強化強化学習を用いて検索を最適化するドメイン認識RAG手法である。
MoLERはRAGシステムの知識ギャップを埋め、特殊なドメインで堅牢でスケーラブルな検索を可能にする。
論文 参考訳(メタデータ) (2025-09-08T13:04:07Z) - RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [111.1749164063616]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - EFRame: Deeper Reasoning via Exploration-Filter-Replay Reinforcement Learning Framework [10.632701939913007]
グループ相対政策最適化(GRPO)は効率を向上するが、探索や訓練の不安定さに悩まされる。
GRPOを3次元に拡張するExploration-Filter-ReplayフレームワークであるEFRameを紹介する。
この統合されたフレームワークは、探索、効率、安定性のバランスをとる、原則化されたトレーニングサイクルを確立します。
論文 参考訳(メタデータ) (2025-06-27T13:09:05Z) - R1-ShareVL: Incentivizing Reasoning Capability of Multimodal Large Language Models via Share-GRPO [91.25793883692036]
我々は、強化学習(RL)を通してMLLMの推論能力を高めることを目的としている。
本稿では,これらの問題に対処する新しいRL手法であるShare-GRPOを提案する。
さらに、Share-GRPOは、利点計算中の報酬情報も共有している。
論文 参考訳(メタデータ) (2025-05-22T13:39:32Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。