論文の概要: Evaluating Reward Model Generalization via Pairwise Maximum Discrepancy Competitions
- arxiv url: http://arxiv.org/abs/2601.16987v1
- Date: Mon, 05 Jan 2026 15:14:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 02:21:38.461468
- Title: Evaluating Reward Model Generalization via Pairwise Maximum Discrepancy Competitions
- Title(参考訳): ペアワイズ最大離散性競争による逆モデル一般化の評価
- Authors: Shunyang Luo, Peibei Cao, Zhihui Zhu, Kehua Feng, Zhihua Wang, Keyan Ding,
- Abstract要約: Pairwise Maximum Discrepancy Competition (PMDC) はRM一般化を評価するための動的かつアノテーション効率の良いフレームワークである。
PMDCは、2つのRM間の不一致を最大化するプロンプト応答対を積極的に選択する。
PMDCを用いて10個の代表RMを再評価し,従来のベンチマークと比較し,実質的なランクリシャッフルを観測する。
- 参考スコア(独自算出の注目度): 24.01200309422524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward models (RMs) are central to aligning large language models, yet their practical effectiveness hinges on generalization to unseen prompts and shifting distributions. Most existing RM evaluations rely on static, pre-annotated preference datasets, which provide limited coverage and often fail to faithfully assess generalization in open-world settings. We introduce Pairwise Maximum Discrepancy Competition (PMDC), a dynamic and annotation-efficient framework for evaluating RM generalization using a large, unlabeled, open-domain prompt pool. PMDC actively selects prompt--response pairs that maximize disagreement between two RMs, yielding a compact set of highly contentious test cases. These cases are adjudicated by an oracle, and the resulting outcomes are aggregated via a Bradley--Terry model to produce a global ranking and pairwise win-rate landscape of RMs. We apply PMDC to re-evaluate 10 representative RMs and observe substantial rank reshuffling compared with conventional benchmarks. Qualitative analyses further uncover systematic generalization failures, providing valuable insights for improving reward modeling.
- Abstract(参考訳): リワードモデル(RM)は、大きな言語モデルの整合性の中心であるが、その実践的効果は、目に見えないプロンプトやシフト分布への一般化にかかっている。
既存のRM評価の多くは静的な事前アノテーション付き嗜好データセットに依存しており、カバー範囲は限られており、オープンワールド設定での一般化を忠実に評価することができないことが多い。
Pairwise Maximum Discrepancy Competition (PMDC) は、大規模なオープンドメインプロンプトプールを用いてRMの一般化を評価するための動的かつアノテーション効率のよいフレームワークである。
PMDCは、2つのRM間の不一致を最大化するプロンプト応答対を積極的に選択し、非常に競合性の高いテストケースのコンパクトなセットを得る。これらのケースはオラクルによって調整され、その結果はBradley-Terryモデルを介して集約され、RMのグローバルなランキングとペアのウィンレートのランドスケープを生成する。
PMDCを用いて10個の代表RMを再評価し,従来のベンチマークと比較し,実質的なランクリシャッフルを観測する。
質的な分析により、体系的な一般化失敗が明らかになり、報酬モデリングを改善するための貴重な洞察が得られる。
関連論文リスト
- SoliReward: Mitigating Susceptibility to Reward Hacking and Annotation Noise in Video Generation Reward Models [53.19726629537694]
ビデオ生成モデルと人間の好みのトレーニング後のアライメントは、重要な目標である。
現在のデータ収集パラダイムは、プロンプト内のペアワイズアノテーションに依存しており、ノイズのラベル付けに悩まされている。
ビデオRMトレーニングのための体系的フレームワークであるSoliRewardを提案する。
論文 参考訳(メタデータ) (2025-12-17T14:28:23Z) - Dynamic and Generalizable Process Reward Modeling [74.36829922727026]
本稿では,細粒度,多次元の報酬基準を捕捉,記憶するための報酬木を特徴とする動的および一般化可能なプロセスリワードモデリング(DG-PRM)を提案する。
実験結果から,DG-PRMは有意なベンチマーク性能を達成し,高い報酬を伴うタスク間のモデル性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-07-23T18:17:22Z) - RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - Energy-Based Reward Models for Robust Language Model Alignment [9.843359827321194]
省エネルギーリワードモデル(EBRM)について紹介する。
EBRMは報酬分布を明示的にモデル化し、人間の好みの不確実性を捉え、ノイズや不一致のアノテーションの影響を緩和する。
実験的な評価は、堅牢性と一般化の大幅な改善を示し、安全クリティカルなアライメントタスクの5.97%を達成している。
論文 参考訳(メタデータ) (2025-04-17T17:47:15Z) - Reward Models Identify Consistency, Not Causality [54.987590763737145]
最先端の報酬モデルでは、因果正しさよりも構造的な一貫性が優先される。
問題文の削除は報酬のスコアに最小限の影響を与える。
数値を変更するか、推論フローを乱すかは、RM出力に大きく影響する。
論文 参考訳(メタデータ) (2025-02-20T14:57:14Z) - RMB: Comprehensively Benchmarking Reward Models in LLM Alignment [44.84304822376291]
リワードモデル(RM)は、大きな言語モデル(LLM)のアライメントをガイドする。
我々は、49以上の実世界のシナリオをカバーする包括的なRMベンチマークであるRMBを提案する。
ベンチマークに基づいて、最先端のRMについて広範な分析を行う。
論文 参考訳(メタデータ) (2024-10-13T16:06:54Z) - Confronting Reward Model Overoptimization with Constrained RLHF [114.71591361764547]
成分RM間の相関がこれらの点の位置に有意な影響を及ぼすことを示す。
ラグランジュ乗算器によって自然に表現される動的重みを学習することで、成分RMの重み付けの問題に対処する。
論文 参考訳(メタデータ) (2023-10-06T16:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。