論文の概要: CE-RM: A Pointwise Generative Reward Model Optimized via Two-Stage Rollout and Unified Criteria
- arxiv url: http://arxiv.org/abs/2601.20327v2
- Date: Sat, 31 Jan 2026 12:28:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 15:03:50.687447
- Title: CE-RM: A Pointwise Generative Reward Model Optimized via Two-Stage Rollout and Unified Criteria
- Title(参考訳): CE-RM:2段階ロールアウトと統一基準により最適化されたポイントワイズ生成リワードモデル
- Authors: Xinyu Hu, Yancheng He, Weixun Wang, Tao Feng, Li Lin, Jiashun Liu, Wenbo Su, Bo Zheng, Xiaojun Wan,
- Abstract要約: 専用の2段階ロールアウト法を用いて学習したポイントワイズ生成報酬モデルCE-RM-4Bを提案する。
オープンソースの選好データセットから算出した約5.7Kの高品質データを用いて、CE-RM-4Bは様々な報奨モデルベンチマークにおいて優れた性能を実現する。
- 参考スコア(独自算出の注目度): 48.70940362676624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic evaluation is crucial yet challenging for open-ended natural language generation, especially when rule-based metrics are infeasible. Compared with traditional methods, the recent LLM-as-a-Judge paradigms enable better and more flexible evaluation, and show promise as generative reward models for reinforcement learning. However, prior work has revealed a notable gap between their seemingly impressive benchmark performance and actual effectiveness in RL practice. We attribute this issue to some limitations in existing studies, including the dominance of pairwise evaluation and inadequate optimization of evaluation criteria. Therefore, we propose CE-RM-4B, a pointwise generative reward model trained with a dedicated two-stage rollout method, and adopting unified query-based criteria. Using only about 5.7K high-quality data curated from the open-source preference dataset, our CE-RM-4B achieves superior performance on diverse reward model benchmarks, especially in Best-of-N scenarios, and delivers more effective improvements in downstream RL practice.
- Abstract(参考訳): 自動評価は、特にルールベースのメトリクスが実現不可能な場合、オープンエンドの自然言語生成にとって非常に難しい。
従来の手法と比較して、近年のLCM-as-a-Judgeパラダイムは、より良いフレキシブルな評価を可能にし、強化学習のための生成的報酬モデルとして有望であることを示す。
しかし、以前の研究は、その見事なベンチマークパフォーマンスと、RLの実践における実際の有効性との間に顕著なギャップがあることを明らかにしている。
この問題は、ペア評価の優位性や評価基準の不十分な最適化など、既存の研究におけるいくつかの制限に起因している。
そこで我々は,CE-RM-4Bを提案する。CE-RM-4Bは,専用2段階のロールアウト方式で学習し,クエリベースの統一基準を採用する。
オープンソースの選好データセットから算出した約5.7Kの高品質データを使用して、CE-RM-4Bは、特にBest-of-Nシナリオにおいて、様々な報酬モデルベンチマークにおいて優れたパフォーマンスを達成し、下流RLの実践においてより効果的な改善を提供する。
関連論文リスト
- EvolvR: Self-Evolving Pairwise Reasoning for Story Evaluation to Enhance Generation [17.37840331449749]
本稿では,ストーリー評価のための自己進化的ペアワイズ推論(EvolvR)フレームワークを提案する。
フレームワークはまず、マルチペルソナ戦略を通じてスコア整合型Chain-of-Thought(CoT)データを自己合成する。
精巧なデータに基づいて訓練された評価器を報奨モデルとして展開し、ストーリー生成タスクを誘導する。
論文 参考訳(メタデータ) (2025-08-08T06:10:47Z) - Posterior-GRPO: Rewarding Reasoning Processes in Code Generation [11.474187778340012]
強化学習は大規模言語モデルのコード生成に大きく進歩した。
現在のパラダイムは、中間的推論プロセスの品質を無視して、テストケースから得られる結果に基づく報酬に依存しています。
本稿では,RLにおける推論プロセスの品質を効果的に活用する統合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-07T09:04:10Z) - RewardBench 2: Advancing Reward Model Evaluation [71.65938693914153]
リワードモデルは、好みのデータからニュアンスされた信号をキャプチャするために、言語モデルの訓練後を通して使用される。
コミュニティは報酬モデルを評価するためのベストプラクティスを確立し始めている。
本稿では,新しいマルチスキル報酬モデルベンチマークであるRewardBench 2を紹介する。
論文 参考訳(メタデータ) (2025-06-02T17:54:04Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - CARMO: Dynamic Criteria Generation for Context-Aware Reward Modelling [27.86204841898399]
大規模な言語モデルでのリワードモデリングは、ハッキングに報奨を与える可能性がある。
本稿では,この問題を緩和するためにコンテキストアウェア・リワード・モデリング(CARMO)を提案する。
我々は、生成モデルに対するゼロショット設定における新しい最先端性能を確立し、Reward Benchの2.1%の改善を実現した。
論文 参考訳(メタデータ) (2024-10-28T21:18:49Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。