論文の概要: PaTaRM: Bridging Pairwise and Pointwise Signals via Preference-Aware Task-Adaptive Reward Modeling
- arxiv url: http://arxiv.org/abs/2510.24235v1
- Date: Tue, 28 Oct 2025 09:43:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.998807
- Title: PaTaRM: Bridging Pairwise and Pointwise Signals via Preference-Aware Task-Adaptive Reward Modeling
- Title(参考訳): PaTaRM: タスク適応リワードモデリングによるペアワイズ信号とポイントワイズ信号のブリッジ
- Authors: Ai Jian, Jingqing Ruan, Xing Ma, Dailin Li, QianLin Zhou, Ke Zeng, Xunliang Cai,
- Abstract要約: Preference-Aware Task-Aware Reward Model (PaTaRM) は、Rest-Aware rewardメカニズムと動的ルーリック適応を統合した統合フレームワークである。
PaTaRMは、IFEvalとInFoBenchベンチマークで平均13.6%改善され、下流RLHFのパフォーマンスが向上する。
- 参考スコア(独自算出の注目度): 19.258007121955924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward models (RMs) are central to reinforcement learning from human feedback (RLHF), providing the critical supervision signals that align large language models (LLMs) with human preferences. While generative reward models (GRMs) offer greater interpretability than traditional scalar RMs, current training paradigms remain limited. Pair-wise methods rely on binary good-versus-bad labels, which cause mismatches for point-wise inference and necessitate complex pairing strategies for effective application in RLHF. On the other hand, point-wise methods require more elaborate absolute labeling with rubric-driven criteria, resulting in poor adaptability and high annotation costs. In this work, we propose the Preference-Aware Task-Adaptive Reward Model (PaTaRM), a unified framework that integrates a preference-aware reward (PAR) mechanism with dynamic rubric adaptation. PaTaRM leverages relative preference information from pairwise data to construct robust point-wise training signals, eliminating the need for explicit point-wise labels. Simultaneously, it employs a task-adaptive rubric system that flexibly generates evaluation criteria for both global task consistency and instance-specific fine-grained reasoning. This design enables efficient, generalizable, and interpretable reward modeling for RLHF. Extensive experiments show that PaTaRM achieves an average relative improvement of 4.7% on RewardBench and RMBench across Qwen3-8B and Qwen3-14B models. Furthermore, PaTaRM boosts downstream RLHF performance, with an average improvement of 13.6% across IFEval and InFoBench benchmarks, confirming its effectiveness and robustness. Our code is available at https://github.com/JaneEyre0530/PaTaRM.
- Abstract(参考訳): リワードモデル(RM)は、人間のフィードバック(RLHF)からの強化学習の中心であり、大きな言語モデル(LLM)と人間の好みを一致させる重要な監視信号を提供する。
生成報酬モデル(GRM)は従来のスカラーRMよりも解釈可能性が高いが、現在の訓練パラダイムは限られている。
ペアワイズ法は2値の善逆バッドラベルに依存しており、これはポイントワイズ推論のミスマッチを引き起こし、RLHFの効果的な適用のために複雑なペアリング戦略を必要とする。
一方、ポイントワイズ法では、より精巧な絶対的なラベル付けをルーブリック駆動の基準で必要としており、適応性は低く、アノテーションのコストも高い。
そこで本研究では,Price-Aware Task-Adaptive Reward Model(PaTaRM)を提案する。
PaTaRMはペアワイズデータからの相対的嗜好情報を活用して、ロバストなポイントワイズトレーニング信号を構築することで、明示的なポイントワイズラベルの必要性を排除している。
同時に、グローバルなタスク一貫性とインスタンス固有のきめ細かい推論の両方に対する評価基準を柔軟に生成するタスク適応型ルーブリックシステムを採用している。
この設計により、RLHFの効率的、一般化可能、解釈可能な報酬モデリングが可能になる。
大規模な実験により、PaTaRMはQwen3-8BおよびQwen3-14BモデルでRewardBenchとRMBenchの平均相対改善率4.7%を達成した。
さらに、PaTaRMは下流のRLHF性能を向上し、IFEvalとInFoBenchベンチマークで平均13.6%改善し、その有効性と堅牢性を確認した。
私たちのコードはhttps://github.com/JaneEyre0530/PaTaRMで利用可能です。
関連論文リスト
- Your Reward Function for RL is Your Best PRM for Search: Unifying RL and Search-Based TTS [62.22644307952087]
本稿では、RLベースと検索ベースTTSの最初の自然統合であるAIRL-Sを紹介する。
逆逆強化学習(AIRL)とグループ相対政策最適化(GRPO)を組み合わせることで、正しい推論トレースから高密度な動的PRMを直接学習する。
提案手法は,GPT-4oと一致して,ベースモデル上での平均9%の性能向上を図っている。
論文 参考訳(メタデータ) (2025-08-19T23:41:15Z) - ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs [75.72672339168092]
本稿では,新しいトラジェクトリ対応PRMであるReasonFlux-PRMを紹介し,トラジェクトリ応答型推論トレースの評価を行う。
ReasonFlux-PRMはステップレベルとトラジェクトリレベルの両方の監視機能を備えており、構造化された連鎖データと整合した微粒な報酬割り当てを可能にする。
得られたReasonFlux-PRM-7Bは、教師付き微調整で平均12.1%、強化学習で4.5%、テスト時間スケーリングで6.3%向上した。
論文 参考訳(メタデータ) (2025-06-23T17:59:02Z) - Discriminative Policy Optimization for Token-Level Reward Models [55.98642069903191]
プロセス報酬モデル(PRM)は、結果報酬モデル(ORM)と比較して、よりきめ細かい監督を提供する。
Q-RMは、微粒なアノテーションに頼ることなく、優先データからトークンレベルのQ関数を明示的に学習する。
Q-RMによる強化学習は、トレーニング効率を大幅に向上させ、GSM8KでのORMの12倍、MATHでのステップレベルPRMの11倍の収束を実現した。
論文 参考訳(メタデータ) (2025-05-29T11:40:34Z) - Think-RM: Enabling Long-Horizon Reasoning in Generative Reward Models [50.4652276723694]
Think-RMは、高度な機能をサポートするフレキシブルで自己誘導的な推論トレースを生成する。
Think-RM は RM-Bench 上で最先端の結果を達成し,BT RM と GenRM の垂直スケールを8% 上回った。
論文 参考訳(メタデータ) (2025-05-22T05:56:11Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - Energy-Based Reward Models for Robust Language Model Alignment [9.843359827321194]
省エネルギーリワードモデル(EBRM)について紹介する。
EBRMは報酬分布を明示的にモデル化し、人間の好みの不確実性を捉え、ノイズや不一致のアノテーションの影響を緩和する。
実験的な評価は、堅牢性と一般化の大幅な改善を示し、安全クリティカルなアライメントタスクの5.97%を達成している。
論文 参考訳(メタデータ) (2025-04-17T17:47:15Z) - A Unified Pairwise Framework for RLHF: Bridging Generative Reward Modeling and Policy Optimization [18.892740849961456]
Reinforcement Learning from Human Feedback (RLHF) は、大規模言語モデルと人間の好みを協調させる重要なパラダイムとして生まれてきた。
本稿では,これらの課題に対処するRLHFフレームワークであるPairwise-RLを紹介する。
論文 参考訳(メタデータ) (2025-04-07T11:34:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。