論文の概要: Pre-Trained Policy Discriminators are General Reward Models
- arxiv url: http://arxiv.org/abs/2507.05197v1
- Date: Mon, 07 Jul 2025 16:56:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.528206
- Title: Pre-Trained Policy Discriminators are General Reward Models
- Title(参考訳): 事前学習型政策判別器は一般リワードモデルである
- Authors: Shihan Dou, Shichun Liu, Yuming Yang, Yicheng Zou, Yunhua Zhou, Shuhao Xing, Chenhao Huang, Qiming Ge, Demin Song, Haijun Lv, Songyang Gao, Chengqi Lv, Enyu Zhou, Honglin Guo, Zhiheng Xi, Wenwei Zhang, Qipeng Guo, Qi Zhang, Xipeng Qiu, Xuanjing Huang, Tao Gui, Kai Chen,
- Abstract要約: 政策差別学習(POLAR)という,スケーラブルな事前学習手法を提案する。
POLARは報酬モデル(RM)を訓練し、同一のポリシーを識別し、異なるポリシーを識別する。
実証実験の結果、POLARは従来の非事前学習法よりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 81.3974586561645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We offer a novel perspective on reward modeling by formulating it as a policy discriminator, which quantifies the difference between two policies to generate a reward signal, guiding the training policy towards a target policy with desired behaviors. Based on this conceptual insight, we propose a scalable pre-training method named Policy Discriminative Learning (POLAR), which trains a reward model (RM) to discern identical policies and discriminate different ones. Unlike traditional reward modeling methods relying on absolute preferences, POLAR captures the relative difference between one policy and an arbitrary target policy, which is a scalable, high-level optimization objective suitable for modeling generic ranking relationships. Leveraging the POLAR pre-training paradigm, we present a series of RMs with parameter scales from 1.8B to 7B. Empirical results show that POLAR substantially outperforms traditional non-pre-trained methods, significantly enhancing RM performance. For instance, POLAR-7B could improve preference accuracy from 54.8% to 81.0% on STEM tasks and from 57.9% to 85.5% on creative writing tasks compared to SOTA baselines. POLAR also shows robust generalization capabilities in RLHF using Reinforcement Fine-tuning (RFT), providing reliable reward signals and markedly enhancing policy performance--improving LLaMa3.1-8B from an average of 47.36% to 56.33% and Qwen2.5-32B from 64.49% to 70.47% on 20 benchmarks. Moreover, scaling experiments reveal a clear power-law relationship between computation and performance, supported by linear correlation coefficients approaching 0.99. The impressive performance, strong generalization, and scaling properties suggest that POLAR is a promising direction for developing general and strong reward models.
- Abstract(参考訳): 報奨信号を生成するための2つのポリシーの違いを定量化し、所望の行動で目標政策に向けて訓練方針を導出する政策判別器として定式化することで、報酬モデリングに関する新たな視点を提供する。
この概念的洞察に基づいて,POLAR(Policy Discriminative Learning)と呼ばれるスケーラブルな事前学習手法を提案し,同じポリシーを識別し,異なるポリシーを識別する報酬モデル(RM)を訓練する。
絶対的な選好に依存する従来の報酬モデリング手法とは異なり、POLARは1つのポリシーと任意の目標ポリシーとの相対的な差異を捉え、これは汎用的なランキング関係をモデル化するのに適するスケーラブルで高レベルな最適化目的である。
POLAR事前学習パラダイムを活用し、パラメータスケールが1.8Bから7Bの一連のRMを示す。
実験の結果,POLARは従来の非事前学習法よりも大幅に優れ,RM性能が著しく向上した。
例えば、POLAR-7BはSTEMタスクでは54.8%から81.0%に、SOTAベースラインでは57.9%から85.5%に改善できる。
POLARはまた、Reinforcement Fine-tuning (RFT)を使用してRLHFの堅牢な一般化能力を示し、信頼性の高い報酬信号を提供し、LLaMa3.1-8Bを平均47.36%から56.33%、Qwen2.5-32Bを64.49%から70.47%まで改善した。
さらに, 線形相関係数が0.99に近づくことにより, 計算と性能の関係が明らかになる。
優れた性能、強力な一般化、スケーリング特性は、POLARが一般的な報酬モデルや強力な報酬モデルを開発する上で有望な方向であることを示唆している。
関連論文リスト
- Value-Free Policy Optimization via Reward Partitioning [0.08192907805418585]
単軌道強化学習のための新しい手法であるReward Partitioning Optimization (RPO)を導入する。
RPOは、データから直接推定されるアプローチを使用して、観察された報酬を正規化する。
我々は,Flan-T5エンコーダデコーダモデルを用いて,スカラーフィードバック言語モデリングタスクにおけるRPOの有効性を検証する。
論文 参考訳(メタデータ) (2025-06-16T17:06:27Z) - Zeroth-Order Policy Gradient for Reinforcement Learning from Human Feedback without Reward Inference [15.038210624870656]
リワード推論は、ヒューマンフィードバックパイプラインからの強化学習における重要な中間ステップである。
本稿では,帯域幅を超える一般RL問題と決定論的MDP帯域幅,Bradley-Terryモデルを超える一般選好モデルについて,報酬推論のない2つのRLHFアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-09-25T22:20:11Z) - Policy Filtration for RLHF to Mitigate Noise in Reward Models [27.278933096153974]
PF-PPOのためのポリシーフィルタリング
PF-PPOはポリシー学習時の信号対雑音比を改善する。
コード生成および数理推論タスクにおけるPF-PPOの有効性を検証する実験を行う。
論文 参考訳(メタデータ) (2024-09-11T02:40:38Z) - Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning [55.65738319966385]
我々は、新しいオンラインアルゴリズム、反復的ナッシュポリシー最適化(INPO)を提案する。
従来の方法とは異なり、INPOは個々の応答に対する期待される勝利率を推定する必要性を回避している。
LLaMA-3-8BベースのSFTモデルで、INPOはAlpacaEval 2.0で42.6%、Arena-Hardで37.8%の勝利率を達成した。
論文 参考訳(メタデータ) (2024-06-30T08:00:34Z) - D2PO: Discriminator-Guided DPO with Response Evaluation Models [63.71853401569461]
学習を通して嗜好が収集されるオンライン環境において,識別器誘導型DPOであるD2POを提案する。
金の選好を収集する際、これらは政策の訓練だけでなく、銀ラベルによる政策訓練のためのさらに総合的なデータに対する差別的な反応評価モデルを訓練するために利用します。
DPOで政策を訓練し、従来のPPOを上回り、政策モデルから分離した差別者を維持することの恩恵を受けるのが最も効果的である。
論文 参考訳(メタデータ) (2024-05-02T17:44:41Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - WARM: On the Benefits of Weight Averaged Reward Models [63.08179139233774]
Weight Averaged Reward Models (WARM) を提案する。
最良N法とRL法を用いた要約タスクの実験は、WARMがLLM予測の全体的な品質とアライメントを改善することを示す。
論文 参考訳(メタデータ) (2024-01-22T18:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。