Fugu-MT 論文翻訳(概要): Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains

論文の概要: Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains

arxiv url: http://arxiv.org/abs/2507.17746v2
Date: Fri, 03 Oct 2025 01:55:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-06 14:21:29.830928
Title: Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains
Title（参考訳）: Rewardsとしてのルーブリック:検証可能なドメインを超えた強化学習
Authors: Anisha Gunjal, Anthony Wang, Elaine Lau, Vaskar Nath, Yunzhong He, Bing Liu, Sean Hendryx,
Abstract要約: Reinforcement Learning with Verifiable Rewards (RLVR) は、数学やコーディングのような明確な正当性信号を持つ複雑な推論タスクに有効であることが証明されている。ラグビーは近年、そのような判断を捉えるために評価ベンチマークで使用されているが、オンラインのポストトレーニングの報奨信号としての可能性はまだ未定である。本稿では,RLVRを検証可能な領域を超えて,ルーブリックフィードバックを用いて拡張するオンライン強化学習手法であるRaRを紹介する。
参考スコア（独自算出の注目度）: 9.917318870162365
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has proven effective for complex reasoning tasks with clear correctness signals such as math and coding. However, extending it to real-world reasoning tasks is challenging, as evaluation depends on nuanced, multi-criteria judgments rather than binary correctness. Instance-specific rubrics have recently been used in evaluation benchmarks to capture such judgments, but their potential as reward signals for on-policy post-training remains underexplored. We introduce $\textbf{Rubrics as Rewards}$ (RaR), an on-policy reinforcement learning method that extends RLVR beyond verifiable domains by using rubric-based feedback. Across both medical and science domains, we evaluate multiple strategies for aggregating rubric feedback into rewards. The best RaR variant achieves relative improvements of up to $31\%$ on HealthBench and $7\%$ on GPQA-Diamond over popular LLM-as-judge baselines that rely on direct Likert-based rewards. These results demonstrate that RaR-trained policies adapt well to diverse evaluation formats, performing strongly on both rubric-based and multiple-choice tasks. Moreover, we find that using rubrics as structured reward signals yields better alignment for smaller judges and reduces performance variance across judge scales.
Abstract（参考訳）: Reinforcement Learning with Verifiable Rewards (RLVR) は、数学やコーディングのような明確な正当性信号を持つ複雑な推論タスクに有効であることが証明されている。しかし、評価は二項正当性よりもニュアンスな多基準判断に依存するため、現実の推論タスクに拡張することは困難である。インスタンス固有のルーブリックは、最近、そのような判断を捉えるために評価ベンチマークで使用されているが、オンラインのポストトレーニングの報奨信号としての可能性はまだ明らかにされていない。 Rewards}$ (RaR) として$\textbf{Rubrics as Rewards}$を紹介した。医学領域と理科領域の双方で,ルーリックフィードバックを報酬に集約するための複数の戦略を評価した。最高のRaRはHealthBenchで311\%、GPQA-Diamondで7\%の相対的な改善を実現している。これらの結果から,RaR学習ポリシは多様な評価形式に適応し,ルーブリックベースおよび複数選択タスクに強く依存することが示された。さらに、構造化された報奨信号としてルーブリックを用いることで、より小さな審査員のアライメントが向上し、判定尺度間の性能ばらつきが低減されることが判明した。

関連論文リスト

Rethinking Rubric Generation for Improving LLM Judge and Reward Modeling for Open-ended Tasks [17.117706938140078]
本稿では,分解フィルタサイクル上に構築された潤滑精製の原理的フレームワークRDを提案する。 RRDは粗いルブリックをきめ細かな識別基準に分解し、カバー範囲を広げ、応答間の分離を鋭くする。評価とトレーニングの両方で、大きく、一貫した利益をもたらします。
論文参考訳（メタデータ） (2026-02-04T23:16:09Z)
From Absolute to Relative: Rethinking Reward Shaping in Group-Based Reinforcement Learning [7.6602542594279335]
本稿では,報酬形成を絶対得点から相対ランクへシフトさせるために,相対報酬を用いた強化学習を提案する。 RLRRは、推論ベンチマークやオープン・エンド・ジェネレーションタスクにおいて、標準グループベースベースラインよりも一貫した性能向上をもたらすことを示す。
論文参考訳（メタデータ） (2026-01-30T15:07:06Z)
From Verifiable Dot to Reward Chain: Harnessing Verifiable Reference-based Rewards for Reinforcement Learning of Open-ended Generation [52.62655622099456]
検証基準ベース報酬(RLVRR)を用いた強化学習を提案する。最後の答えをチェックする代わりに、RLVRRは高品質な参照(すなわち報酬連鎖)から順序付けられた言語信号を抽出する。このようにして、RLVRRは報酬を2つの次元に分解する。
論文参考訳（メタデータ） (2026-01-26T14:39:58Z)
VeRPO: Verifiable Dense Reward Policy Optimization for Code Generation [43.206705536310245]
textbfVeRPO (textbf Verifiable Dtextbfense textbfReward textbfPolicy textbfOptimization) は,テキストイトラバストと高密度報酬を合成し,検証された実行フィードバックに完全に根ざしたコード生成のための新しいRLフレームワークである。 VeRPOは結果駆動のベースラインとRMベースのベースラインを一貫して上回り、許容しない時間コスト(0.02%)とゼロのパス@1で+8.83%のゲインを達成している。
論文参考訳（メタデータ） (2026-01-07T02:29:49Z)
Reward and Guidance through Rubrics: Promoting Exploration to Improve Multi-Domain Reasoning [79.365697698062]
マルチドメイン推論のためのフレームワークである $textbfRGR-GRPO (Reward and Guidance through rubrics) を提案する。 RGR-GRPOは、代替の報酬スキームやオフラインガイダンスにのみ依存するRLメソッドよりも一貫して優れている。
論文参考訳（メタデータ） (2025-11-15T20:14:51Z)
PROF: An LLM-based Reward Code Preference Optimization Framework for Offline Imitation Learning [29.373324685358753]
本稿では,自然言語記述から実行可能報酬関数コードを生成し,改善するためのフレームワークであるPROFと,単一専門家の軌跡を提案する。また,環境相互作用やRLトレーニングを必要とせず,新たな報酬関数品質評価とランキング戦略であるReward Preference Ranking(RPR)を提案する。
論文参考訳（メタデータ） (2025-11-14T14:38:02Z)
GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。 SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文参考訳（メタデータ） (2025-06-19T08:49:13Z)
Intra-Trajectory Consistency for Reward Modeling [67.84522106537274]
軌道内整合性正則化を開発し、より高い次トーケン生成確率を持つプロセスがより一貫した報酬を維持することを強制する。提案した正規化でトレーニングした報酬モデルにより、より優れたDPO整合ポリシーが導出され、より優れたベスト・オブ・N(BON)検証結果が得られることを示す。
論文参考訳（メタデータ） (2025-06-10T12:59:14Z)
Response-Level Rewards Are All You Need for Online Reinforcement Learning in LLMs: A Mathematical Perspective [6.069069082518759]
大規模言語モデル(LLM)の強化学習におけるゼロ・リワード推定について検討する。反応レベル報酬モデルのみを用いて、真で未知のトークンレベルの報酬に基づくポリシー勾配を不偏に推定できることを示す。我々は,新しいアルゴリズム,Token-Reinforced Policy Optimization (TRePO)を提案する。
論文参考訳（メタデータ） (2025-06-03T07:44:31Z)
Writing-Zero: Bridge the Gap Between Non-verifiable Tasks and Verifiable Rewards [11.149294285483782]
我々は、検証不可能なタスクと検証可能な報酬のギャップを埋める統一的なRLVRベースのトレーニングパラダイムを提案する。本稿では,GenRMとBootstrapped Relative Policy Optimization (BRPO)アルゴリズムを提案する。提案手法は,LLMが微調整を監督せずに堅牢な書込み機能を開発する上で有効である。
論文参考訳（メタデータ） (2025-05-30T14:34:57Z)
RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文参考訳（メタデータ） (2025-05-28T14:55:33Z)
Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文参考訳（メタデータ） (2025-05-26T07:01:06Z)
A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文参考訳（メタデータ） (2025-04-15T16:15:02Z)
RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。 RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文参考訳（メタデータ） (2024-03-20T17:49:54Z)
Improving Reinforcement Learning from Human Feedback Using Contrastive Rewards [26.40009657912622]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるために使われる主流パラダイムである。しかし、既存のRLHFは、様々な情報源からのノイズに対して脆弱で敏感な正確で情報的な報酬モデルに大きく依存している。本研究では,報酬に対するペナルティ項を導入することで,報酬モデルの有効性を向上する。
論文参考訳（メタデータ） (2024-03-12T14:51:57Z)
REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文参考訳（メタデータ） (2023-12-22T04:56:37Z)
Deep Reinforcement Learning from Hierarchical Preference Design [99.46415116087259]
本稿では,特定の構造を利用することにより,報酬設計プロセスの容易性を示す。シナリオのための階層的な報酬モデリングフレームワーク -- HERONを提案する。 (I) フィードバック信号は自然に階層構造を呈し、 (II) 報酬は希少であるが、政策学習を支援するためにあまり重要でないサロゲートフィードバックを持つ。
論文参考訳（メタデータ） (2023-09-06T00:44:29Z)
Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。 SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文参考訳（メタデータ） (2021-11-05T12:51:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。