論文の概要: ReflectRM: Boosting Generative Reward Models via Self-Reflection within a Unified Judgment Framework
- arxiv url: http://arxiv.org/abs/2604.07506v1
- Date: Wed, 08 Apr 2026 18:46:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.5139
- Title: ReflectRM: Boosting Generative Reward Models via Self-Reflection within a Unified Judgment Framework
- Title(参考訳): ReflectRM: 統一判断フレームワーク内での自己回帰による生成的リワードモデルの向上
- Authors: Kai Qin, Liangxin Liu, Yu Liang, Longzheng Wang, Yan Wang, Yueyang Zhang, Long Xia, Zhiyuan Sun, Houde Liu, Daiting Shi,
- Abstract要約: ジェネレーティブ・リワード・モデル(GRM)は優れたパラダイムとして登場している。
我々は自己回帰を利用して分析品質を評価する新しいGRMであるReflectRMを提案する。
本研究では,Qwen3-4Bで平均精度+3.7を達成することにより,ReflectRMの性能を継続的に向上することを示す。
- 参考スコア(独自算出の注目度): 12.57107352208971
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward Models (RMs) are critical components in the Reinforcement Learning from Human Feedback (RLHF) pipeline, directly determining the alignment quality of Large Language Models (LLMs). Recently, Generative Reward Models (GRMs) have emerged as a superior paradigm, offering higher interpretability and stronger generalization than traditional scalar RMs. However, existing methods for GRMs focus primarily on outcome-level supervision, neglecting analytical process quality, which constrains their potential. To address this, we propose ReflectRM, a novel GRM that leverages self-reflection to assess analytical quality and enhance preference modeling. ReflectRM is trained under a unified generative framework for joint modeling of response preference and analysis preference. During inference, we use its self-reflection capability to identify the most reliable analysis, from which the final preference prediction is derived. Experiments across four benchmarks show that ReflectRM consistently improves performance, achieving an average accuracy gain of +3.7 on Qwen3-4B. Further experiments confirm that response preference and analysis preference are mutually reinforcing. Notably, ReflectRM substantially mitigates positional bias, yielding +10.2 improvement compared with leading GRMs and establishing itself as a more stable evaluator.
- Abstract(参考訳): リワードモデル(RM)はReinforcement Learning from Human Feedback(RLHF)パイプラインにおいて重要な要素であり、Large Language Models(LLM)のアライメント品質を直接決定する。
近年、ジェネレーティブ・リワード・モデル (GRM) は従来のスカラーRMよりも高い解釈可能性と強力な一般化を提供する優れたパラダイムとして出現している。
しかし、既存のGEMの手法は、主に結果レベルの監督に焦点をあて、分析プロセスの品質を無視し、その可能性を制限する。
そこで本研究では、自己回帰を利用して分析品質を評価し、嗜好モデルを強化する新しいGRMであるReflectRMを提案する。
ReflectRMは、応答選好と分析選好の合同モデリングのための統合生成フレームワークの下で訓練されている。
推論では、その自己回帰能力を用いて最も信頼性の高い分析を識別し、最終選好予測を導出する。
4つのベンチマークで実験したところ、ReflectorRMはQwen3-4Bで平均精度+3.7の精度向上を実現している。
さらなる実験により、反応の嗜好と分析の嗜好が相互に強化されていることが確認された。
特に、ReflectionRMは位置バイアスを実質的に軽減し、主要なGRMと比べて+10.2改善し、より安定した評価器として確立する。
関連論文リスト
- ConsistRM: Improving Generative Reward Models via Consistency-Aware Self-Training [11.579744186304895]
ジェネレーティブ報酬モデル(GRM)は、大規模言語モデル(LLM)と人間の嗜好を整合させるための有望なアプローチとして登場した。
我々は,人間のアノテーションを使わずに,効果的かつ安定したGRMトレーニングを可能にする自己学習フレームワークであるConsistRMを提案する。
論文 参考訳(メタデータ) (2026-04-08T18:25:02Z) - CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling [61.75914342638658]
CDRRM(Contrast-Driven Reward Model)は、高品質なルーリック生成と優先判断のためのフレームワークである。
この作業は、報酬モデリングのためのスケーラブルで解釈可能で、データ効率のよいパスを提供する。
論文 参考訳(メタデータ) (2026-03-09T07:15:23Z) - R-Align: Enhancing Generative Reward Models through Rationale-Centric Meta-Judging [69.96389360650072]
解析精度は, 標準ラベルの精度を超えて, 下流RLHFの結果を高い精度で予測できることが示される。
我々は,金の判断でトレーニングを増強し,合理的アライメントを明示的に監督するR-Alignを提案する。
論文 参考訳(メタデータ) (2026-02-06T15:17:11Z) - RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - Energy-Based Reward Models for Robust Language Model Alignment [9.843359827321194]
省エネルギーリワードモデル(EBRM)について紹介する。
EBRMは報酬分布を明示的にモデル化し、人間の好みの不確実性を捉え、ノイズや不一致のアノテーションの影響を緩和する。
実験的な評価は、堅牢性と一般化の大幅な改善を示し、安全クリティカルなアライメントタスクの5.97%を達成している。
論文 参考訳(メタデータ) (2025-04-17T17:47:15Z) - Uncertainty-aware Reward Model: Teaching Reward Models to Know What is Unknown [20.753374166695494]
本稿では,Uncertainty-aware Reward Model (URM)とそのアンサンブル変種URMEを紹介する。
URMは、不整合な人間の嗜好属性の分布をモデル化することにより、アレタリック不確かさを捉えるために確率的値ヘッドを用いる。
URMEはさらに、アンサンブル内の個々のURM間の不一致を調べて不確実性を定量化し、信頼できない評価の特定を可能にする。
論文 参考訳(メタデータ) (2024-10-01T16:29:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。