論文の概要: C2: Scalable Rubric-Augmented Reward Modeling from Binary Preferences
- arxiv url: http://arxiv.org/abs/2604.13618v1
- Date: Wed, 15 Apr 2026 08:33:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.45346
- Title: C2: Scalable Rubric-Augmented Reward Modeling from Binary Preferences
- Title(参考訳): C2: 拡張可能なRubric-Augmented Reward Modeling
- Authors: Akira Kawabata, Saku Sugawara,
- Abstract要約: 本稿では,モデルが二進選好のみから訓練されたルーリック生成器と批判的に協調することで,報酬モデル判定を改善する枠組みを提案する。
C2は、同じ二進選好で訓練された推論報酬モデルより優れており、RM-ベンチでは最大6.5ポイント、AlpacaEval 2.0では6.0ポイントの勝利率がある。
- 参考スコア(独自算出の注目度): 10.887875746528826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rubric-augmented verification guides reward models with explicit evaluation criteria, yielding more reliable judgments than single-model verification. However, most existing methods require costly rubric annotations, limiting scalability. Moreover, we find that rubric generation is vulnerable to a failure of cooperation; low-quality rubrics actively mislead reward models rather than help. Inspired by the principle of cooperative communication, we propose Cooperative yet Critical reward modeling (C2), a framework that significantly improves reward model judgments by having the reward model critically collaborate with a rubric generator trained solely from binary preferences. In C2, we synthesize helpful and misleading rubric pairs by measuring how each rubric shifts the reward model toward or away from the correct preference. Using these contrastive pairs, we train a cooperative rubric generator to propose helpful rubrics, and a critical verifier to assess rubric validity before making its judgment, following only rubrics it deems helpful at inference time. C2 outperforms reasoning reward models trained on the same binary preferences, with gains of up to 6.5 points on RM-Bench and 6.0 points length-controlled win rate on AlpacaEval 2.0. Without external rubric annotations, C2 enables an 8B reward model to match performance achieved with rubrics from a 4$\times$ larger model. Overall, our work demonstrates that eliciting deliberate cooperation in rubric-augmented verification makes reward models more trustworthy in a scalable way.
- Abstract(参考訳): Rubric-augmented confirmeds reward model with explicit evaluation criteria, yields more reliable judgments than single-model validation。
しかし、既存のほとんどのメソッドは、スケーラビリティを制限し、コストのかかる古風なアノテーションを必要とします。
さらに, ルーリック生成は協調の失敗に対して脆弱であり, 低品質のルーリックは援助よりも報酬モデルを積極的に誤解している。
協調コミュニケーションの原理に着想を得て,二進選好のみから学習したルーリック発電機に報酬モデルに批判的に協調させることにより,報酬モデル判断を大幅に改善するフレームワークC2を提案する。
C2では,各ルーリックがどのように報酬モデルを正しい嗜好から遠ざかるかを測定することで,有用で誤解を招くルーリックペアを合成する。
比較的なペアを用いて,有用な潤滑剤を提案するために協調的な潤滑剤発生装置を訓練し,その評価に先立って,推算時に有用と判断される潤滑剤のみを追従し,その有効性を評価するための臨界検証器を試作した。
C2は、同じ二進選好で訓練された推論報酬モデルより優れており、RM-ベンチでは最大6.5ポイント、AlpacaEval 2.0では6.0ポイントの勝利率がある。
外部のルーブリックアノテーションがなければ、C2は8B報酬モデルが4$\times$大きなモデルのルーブリックで達成されたパフォーマンスにマッチすることを可能にする。
全体として、我々の研究は、粗末な強化された検証において故意に協力することによって、報奨モデルをスケーラブルな方法でより信頼できるものにすることを示した。
関連論文リスト
- Personalized RewardBench: Evaluating Reward Models with Human Aligned Personalization [12.964518425036168]
パーソナライズド・リワードベンチ(Personalized RewardBench)は、パーソナライズされた好みをモデル化するための報酬モデルの能力を厳格に評価する新しいベンチマークである。
選択された応答対と拒否された応答対は、ユーザ固有のルーリックへの厳密な固執(または違反)に基づいて構成し、好みの区別が個人ごとに一意に調整されていることを保証します。
本ベンチマークでは,既存のベースラインと比較して,Best-of-N(BoN)サンプリングとPPO(Porximal Policy Optimization)の両方において,ダウンストリーム性能と有意に高い相関関係を示した。
論文 参考訳(メタデータ) (2026-04-08T17:55:00Z) - OpenRubrics: Towards Scalable Synthetic Rubric Generation for Reward Modeling and LLM Alignment [38.1645520104553]
OpenRubricsは,ルーブリック世代とルーブリックベースの報酬モデルをトレーニングするための,大規模な(プロンプト,エクスプリシット)ペアのコレクションである。
識別的・包括的評価信号を引き出すために,優先的・拒否的な応答を対比することにより,厳格な規則(単純質)と原則(簡易品質)の両方を導出するコントラスト生成(CRG)を導入する。
この結果から,ごみは費用対人評価と自動報酬モデリングのギャップを狭めるような,スケーラブルなアライメント信号を提供することがわかった。
論文 参考訳(メタデータ) (2025-10-09T03:31:26Z) - SPARK: Synergistic Policy And Reward Co-Evolving Framework [84.22494672256894]
我々は、RLVR上に構築された効率的でオン・ポリティクス、安定した手法であるSPARK(Synergistic Policy and Reward Co-Evolving Framework)を紹介する。
ロールアウトと正確性データを捨てる代わりに、SPARKはこの貴重な情報をリサイクルし、生成的報酬モデルとしてモデル自体をトレーニングする。
SPARK は複数の LLM モデルと LVLM モデル,および複数の推論,報酬モデル,一般ベンチマークにおいて,大幅な性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2025-09-26T17:50:12Z) - Cooper: Co-Optimizing Policy and Reward Models in Reinforcement Learning for Large Language Models [28.542061921495353]
モデルベースの報酬とルールベースの報酬の2つの主要な報酬パラダイムがある。
ルールベースの報酬には堅牢性がないのに対して、モデルベースの報酬はハッキングに対する報酬に対して脆弱である。
政策モデルと報酬モデルの両方を共同で最適化するRLフレームワークであるCooperを提案する。
我々の実験によると、Cooperは報酬ハッキングを緩和するだけでなく、例えばQwen2.5-1.5B-Instructの平均精度で0.54%向上するエンド・ツー・エンドのRL性能も改善している。
論文 参考訳(メタデータ) (2025-08-07T17:53:56Z) - RED: Unleashing Token-Level Rewards from Holistic Feedback via Reward Redistribution [50.171320156632866]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための有望なアプローチを提供する。
現在の報酬モデルはシークエンス・ツー・ワンモデルとして動作し、単一、スパース、遅延報酬を全出力シーケンスに割り当てる。
よりきめ細かなトークンレベルの指導手法をRLトレーニングに提案する。
論文 参考訳(メタデータ) (2024-11-13T02:45:21Z) - CARMO: Dynamic Criteria Generation for Context-Aware Reward Modelling [27.86204841898399]
大規模な言語モデルでのリワードモデリングは、ハッキングに報奨を与える可能性がある。
本稿では,この問題を緩和するためにコンテキストアウェア・リワード・モデリング(CARMO)を提案する。
我々は、生成モデルに対するゼロショット設定における新しい最先端性能を確立し、Reward Benchの2.1%の改善を実現した。
論文 参考訳(メタデータ) (2024-10-28T21:18:49Z) - Critique-out-Loud Reward Models [20.631830494414096]
本稿では,Crytique-out-Loud(CLoud)報酬モデルを紹介する。
CLoud報酬モデルは、まずアシスタントの応答に対する自然言語の批判を生成することで機能する。
我々は,Llama-3-8Bおよび70BベースモデルのCLoud報酬モデルの成功例を示した。
論文 参考訳(メタデータ) (2024-08-21T17:24:15Z) - HAF-RM: A Hybrid Alignment Framework for Reward Model Training [51.59246299566669]
報酬モデルトレーニングのためのハイブリッドアライメントフレームワークHaF-RMを提案する。
報酬モデルのパフォーマンスとアライメントを高めるための、原則的で効果的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-07-04T23:26:56Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。