論文の概要: Not Every Rubric Teaches Equally: Policy-Aware Rubric Rewards for RLVR
- arxiv url: http://arxiv.org/abs/2605.20164v1
- Date: Tue, 19 May 2026 17:50:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.568958
- Title: Not Every Rubric Teaches Equally: Policy-Aware Rubric Rewards for RLVR
- Title(参考訳): RLVRのルーブリック・リワードは、すべてのルーブリック・ティーチが平等に
- Authors: Utkarsh Tyagi, Xingang Guo, MohammadHossein Rezaei, Daniel George, Anas Mahmoud, Jackson Lee, Bing Liu, Yunzhong He,
- Abstract要約: POW3Rは、人重とカテゴリーバランスを目的とする政策対応報酬フレームワークである。
POW3Rはロールアウトレベルのコントラストを使用して、現在ポリシーの出力を分離している基準を強調する。
- 参考スコア(独自算出の注目度): 15.763726386280723
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement learning with verifiable rewards has made post-training highly effective when correctness can be checked automatically. However, many important model behaviors require satisfying several qualitative criteria at once. Rubric-based rewards address this setting by grading prompt-specific criteria and aggregating them into a scalar reward. Yet standard static aggregations conflate a criterion's human-assigned importance with its current usefulness as an optimization signal. We show that this assumption breaks down in rubric RL: many important criteria are already saturated or currently unreachable, while criteria that distinguish rollouts are not necessarily those with the largest human weights. We introduce POW3R, a policy-aware rubric reward framework that preserves human weights and category balance as the rubric objective while adapting criterion-level reward weights during training. POW3R uses rollout-level contrast to emphasize criteria that currently separate the policy's outputs, making the GRPO reward more informative without changing the underlying evaluation target. Across three base policies on two datasets spanning multimodal and text-only settings, POW3R wins $24$ of $30$ base-policy/metric comparisons, improving both mean rubric reward and strict completion (the fraction of prompts whose response satisfies every required rubric criterion) over vanilla GRPO with rubric rewards, and reaches the same plateau in $2.5$--$4\times$ fewer training steps. Rubric rewards should therefore distinguish what should matter in the final answer from what can teach the current policy.
- Abstract(参考訳): 検証可能な報酬を伴う強化学習は、自動的に正確性をチェックすることができれば、ポストトレーニングが極めて効果的になる。
しかし、多くの重要なモデル行動は、一度にいくつかの定性的基準を満たす必要がある。
ルーブリックベースの報酬は、プロンプト固有の基準を格付けし、それらをスカラー報酬に集約することで、この設定に対処する。
しかし、標準的な静的アグリゲーションは、クレーターの人間指定の重要さと、その最適化信号として現在有用であることを示す。
多くの重要な基準はすでに飽和しており、現在は到達できないが、ロールアウトを区別する基準は必ずしも最大のヒトの体重を持つ基準ではない。
PW3Rは、トレーニング中に基準レベルの報酬重量を適応させながら、人間の体重とカテゴリーバランスをルーブリック目標として保持する政策対応のルーブリック報酬フレームワークである。
POW3Rはロールアウトレベルのコントラストを使用して、現在政策のアウトプットを分離している基準を強調する。
マルチモーダルとテキストのみの設定にまたがる2つのデータセットに関する3つの基本ポリシーの中で、POW3Rは、平均的なルーリック報酬と厳格な完了(応答が要求されるルーリック基準を満足するプロンプトの比率)の両方を改善し、ルーリック報酬でバニラGRPOを上回り、2.5$-4$のトレーニングステップで同じプラトーに到達した。
したがって、ラブリック報酬は、最終回答で問題となるものと、現在の方針を教えるものとを区別すべきである。
関連論文リスト
- Verifier-Free RL for LLMs via Intrinsic Gradient-Norm Reward [69.99652051809737]
本研究では,検証自由な内在性勾配項再帰(VIGOR)を提案する。
VIGORはポリシーモデルのみを使用する単純な報酬です。
数学データのみに基づいてトレーニングされた場合、コードベンチマークへのクロスドメイン転送を示す。
論文 参考訳(メタデータ) (2026-05-11T03:15:37Z) - Rubric-Grounded RL: Structured Judge Rewards for Generalizable Reasoning [1.517713730645682]
我々は,構造的かつ多条件の報酬に対してポリシを最適化するフレームワークとして,経験的地下強化学習(RL: Emphrubric-grounded reinforcement learning)を定式化する。
我々は、約10万の科学・技術文書からなるOSTI(Office of Scientific and Technical Information)由来のコーパスから潤滑剤を抽出して、この枠組みをインスタンス化する。
論文 参考訳(メタデータ) (2026-05-08T17:48:58Z) - Reward-Conditioned Reinforcement Learning [56.417273471201845]
Reward-Conditioned Reinforcement Learning (RCRL) は、報酬仕様のファミリーを最適化するために単一のエージェントを訓練するフレームワークである。
RCRLは、報酬パラメータ化のエージェントを条件付け、共有されたリプレイデータから複数の報酬目標を学習する。
その結果、RCRLはシングルタスクトレーニングの単純さを犠牲にすることなく、堅牢でステアブルなポリシを学習するためのスケーラブルなメカニズムを提供することを示した。
論文 参考訳(メタデータ) (2026-03-05T11:29:17Z) - SPARK: Synergistic Policy And Reward Co-Evolving Framework [84.22494672256894]
我々は、RLVR上に構築された効率的でオン・ポリティクス、安定した手法であるSPARK(Synergistic Policy and Reward Co-Evolving Framework)を紹介する。
ロールアウトと正確性データを捨てる代わりに、SPARKはこの貴重な情報をリサイクルし、生成的報酬モデルとしてモデル自体をトレーニングする。
SPARK は複数の LLM モデルと LVLM モデル,および複数の推論,報酬モデル,一般ベンチマークにおいて,大幅な性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2025-09-26T17:50:12Z) - Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains [9.917318870162365]
Reinforcement Learning with Verifiable Rewards (RLVR) は、数学やコーディングのような明確な正当性信号を持つ複雑な推論タスクに有効であることが証明されている。
ラグビーは近年、そのような判断を捉えるために評価ベンチマークで使用されているが、オンラインのポストトレーニングの報奨信号としての可能性はまだ未定である。
本稿では,RLVRを検証可能な領域を超えて,ルーブリックフィードバックを用いて拡張するオンライン強化学習手法であるRaRを紹介する。
論文 参考訳(メタデータ) (2025-07-23T17:57:55Z) - Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning [55.15106182268834]
検証可能な報奨付き強化学習(RLVR)が,大規模言語モデルにおける推論能力向上のための主要なアプローチとして登場した。
ロールアウト生成は恥ずかしく並列であり、メモリライトであるのに対して、ポリシー更新は通信量が多く、メモリ集約的である。
PODS(Policy Optimization with Down-Sampling)を導入し、戦略的に選択されたロールアウトサブセットでのみトレーニングすることで、ポリシー更新からロールアウト生成を分離する。
論文 参考訳(メタデータ) (2025-04-18T17:49:55Z) - Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance [52.65461207786633]
政策に基づく人間からのフィードバックからの強化学習は、大きな言語モデルと人間の嗜好の整合に不可欠である。
俳優と批評家の合同トレーニングと、事前訓練された一定の報酬モデルによる指導が必要である。
従来の報酬モデリングを事前訓練されたEmphglobal Value Model(GVM)に置き換えるリーンフレームワークである textbfDecoupled Value Policy Optimization (DVPO) を提案する。
論文 参考訳(メタデータ) (2025-02-24T08:11:33Z) - RVI-SAC: Average Reward Off-Policy Deep Reinforcement Learning [0.0]
RVI-SACは、平均報酬基準に対して、最先端のオフポリチックDRL(Soft Actor-Critic, SAC)法の拡張である。
本提案は,(1)RVIQ-learningに基づく批判的更新,(2)平均報酬ソフトポリシー改善定理によって導入されたアクター更新,(3)平均報酬強化学習が終了するタスクに適用可能なリセットコストの自動調整からなる。
論文 参考訳(メタデータ) (2024-08-04T09:26:00Z) - WARP: On the Benefits of Weight Averaged Rewarded Policies [66.95013068137115]
ウェイトアベレード・リワード・ポリシー(WARP)という新しいアライメント戦略を導入する。
WARPは重量空間のポリシーを3つの異なる段階でマージする。
GEMMAポリシによる実験では、WARPが品質とアライメントを改善し、他のオープンソースLLMよりも優れています。
論文 参考訳(メタデータ) (2024-06-24T16:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。