論文の概要: OpenRubrics: Towards Scalable Synthetic Rubric Generation for Reward Modeling and LLM Alignment
- arxiv url: http://arxiv.org/abs/2510.07743v1
- Date: Thu, 09 Oct 2025 03:31:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.84675
- Title: OpenRubrics: Towards Scalable Synthetic Rubric Generation for Reward Modeling and LLM Alignment
- Title(参考訳): OpenRubrics:リワードモデリングとLLMアライメントのためのスケーラブルな合成ゴム生成を目指して
- Authors: Tianci Liu, Ran Xu, Tony Yu, Ilgee Hong, Carl Yang, Tuo Zhao, Haoyu Wang,
- Abstract要約: OpenRubricsは,ルーブリック世代とルーブリックベースの報酬モデルをトレーニングするための,大規模な(プロンプト,エクスプリシット)ペアのコレクションである。
識別的・包括的評価信号を引き出すために,優先的・拒否的な応答を対比することにより,厳格な規則(単純質)と原則(簡易品質)の両方を導出するコントラスト生成(CRG)を導入する。
この結果から,ごみは費用対人評価と自動報酬モデリングのギャップを狭めるような,スケーラブルなアライメント信号を提供することがわかった。
- 参考スコア(独自算出の注目度): 38.1645520104553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward modeling lies at the core of reinforcement learning from human feedback (RLHF), yet most existing reward models rely on scalar or pairwise judgments that fail to capture the multifaceted nature of human preferences. Recent studies have explored rubrics-as-rewards (RaR) that uses structured natural language criteria that capture multiple dimensions of response quality. However, producing rubrics that are both reliable and scalable remains a key challenge. In this work, we introduce OpenRubrics, a diverse, large-scale collection of (prompt, rubric) pairs for training rubric-generation and rubric-based reward models. To elicit discriminative and comprehensive evaluation signals, we introduce Contrastive Rubric Generation (CRG), which derives both hard rules (explicit constraints) and principles (implicit qualities) by contrasting preferred and rejected responses. We further improve reliability by enforcing preference-label consistency via rejection sampling to remove noisy rubrics. Across multiple reward-modeling benchmarks, our rubric-based reward model, Rubric-RM, surpasses strong size-matched baselines by 6.8%. These gains transfer to policy models on instruction-following and biomedical benchmarks. Our results show that rubrics provide scalable alignment signals that narrow the gap between costly human evaluation and automated reward modeling, enabling a new principle-driven paradigm for LLM alignment.
- Abstract(参考訳): リワードモデリングは、人間からのフィードバック(RLHF)からの強化学習の中核にあるが、既存の報酬モデルは、人間の嗜好の多面的な性質を捉えないスカラーまたはペアワイズな判断に依存している。
近年の研究では、応答品質の複数の次元を捉える構造化自然言語基準を用いて、Rurics-as-Rewards(RaR)を探索している。
しかし、信頼性とスケーラビリティの両方を備えたルーブリックの生成は、依然として重要な課題である。
本稿では,ルーブリック世代とルーブリックベースの報酬モデルをトレーニングするための,多種多様な(プロンプト,ルーブリック)ペアの大規模なコレクションであるOpenRubricsを紹介する。
識別的,包括的評価信号を求めるために,推奨された反応と拒否された反応を対比することにより,厳格な規則(明示的制約)と原則(単純な品質)の両方を導出するコントラスト的ルーブリック生成(CRG)を導入する。
我々は、ノイズの多いルーリックを除去するために、リジェクションサンプリングによる優先ラベル一貫性を強制することにより、信頼性をさらに向上する。
複数の報酬モデルベンチマークを通じて、我々のルーブリックベースの報酬モデルであるRubric-RMは、強力なサイズマッチングベースラインを6.8%上回る。
これらの結果は、インストラクションフォローとバイオメディカルベンチマークのポリシーモデルに転送される。
この結果から, ごみは費用対人評価と自動報酬モデリングのギャップを狭めるスケーラブルなアライメント信号を提供し, LLMアライメントのための新しい原理駆動パラダイムを実現することが示唆された。
関連論文リスト
- Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains [9.917318870162365]
Reinforcement Learning with Verifiable Rewards (RLVR) は、数学やコーディングのような明確な正当性信号を持つ複雑な推論タスクに有効であることが証明されている。
ラグビーは近年、そのような判断を捉えるために評価ベンチマークで使用されているが、オンラインのポストトレーニングの報奨信号としての可能性はまだ未定である。
本稿では,RLVRを検証可能な領域を超えて,ルーブリックフィードバックを用いて拡張するオンライン強化学習手法であるRaRを紹介する。
論文 参考訳(メタデータ) (2025-07-23T17:57:55Z) - Writing-Zero: Bridge the Gap Between Non-verifiable Tasks and Verifiable Rewards [11.149294285483782]
我々は、検証不可能なタスクと検証可能な報酬のギャップを埋める統一的なRLVRベースのトレーニングパラダイムを提案する。
本稿では,GenRMとBootstrapped Relative Policy Optimization (BRPO)アルゴリズムを提案する。
提案手法は,LLMが微調整を監督せずに堅牢な書込み機能を開発する上で有効である。
論文 参考訳(メタデータ) (2025-05-30T14:34:57Z) - Two Minds Better Than One: Collaborative Reward Modeling for LLM Alignment [35.80989342492335]
人間のフィードバックのノイズの多い好みは 報酬の一般化に繋がる
本研究の目的は,報酬モデルにおいて,騒音の嗜好が人間の嗜好とどのように異なるかを明らかにすることである。
我々は、堅牢な選好学習を実現するためのオンラインコラボレーション・リワード・モデリング・フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-15T10:58:20Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。