論文の概要: URPO: A Unified Reward & Policy Optimization Framework for Large Language Models
- arxiv url: http://arxiv.org/abs/2507.17515v1
- Date: Wed, 23 Jul 2025 13:52:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:15.024168
- Title: URPO: A Unified Reward & Policy Optimization Framework for Large Language Models
- Title(参考訳): URPO:大規模言語モデルのための統一リワード・ポリシー最適化フレームワーク
- Authors: Songshuo Lu, Hua Wang, Zhi Chen, Yaohua Tang,
- Abstract要約: 本稿では,1つのモデルと1つのトレーニングフェーズにおいて,命令フォロー(プレイヤ)と報酬モデリング(参照)を統一する新しいフレームワークを提案する。
提案手法は,全てのアライメントデータを含む選好ペア,検証可能な推論,オープンな命令を統一された生成形式に再キャストする。
Qwen2.5-7Bモデルの実験はURPOの優位性を示している。
- 参考スコア(独自算出の注目度): 10.511836918064724
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large-scale alignment pipelines typically pair a policy model with a separately trained reward model whose parameters remain frozen during reinforcement learning (RL). This separation creates a complex, resource-intensive pipeline and suffers from a performance ceiling due to a static reward signal. We propose a novel framework, Unified Reward & Policy Optimization (URPO), that unifies instruction-following ("player") and reward modeling ("referee") within a single model and a single training phase. Our method recasts all alignment data-including preference pairs, verifiable reasoning, and open-ended instructions-into a unified generative format optimized by a single Group-Relative Policy Optimization (GRPO) loop. This enables the model to learn from ground-truth preferences and verifiable logic while simultaneously generating its own rewards for open-ended tasks. Experiments on the Qwen2.5-7B model demonstrate URPO's superiority. Our unified model significantly outperforms a strong baseline using a separate generative reward model, boosting the instruction-following score on AlpacaEval from 42.24 to 44.84 and the composite reasoning average from 32.66 to 35.66. Furthermore, URPO cultivates a superior internal evaluator as a byproduct of training, achieving a RewardBench score of 85.15 and surpassing the dedicated reward model it replaces (83.55). By eliminating the need for a separate reward model and fostering a co-evolutionary dynamic between generation and evaluation, URPO presents a simpler, more efficient, and more effective path towards robustly aligned language models.
- Abstract(参考訳): 大規模アライメントパイプラインは通常、ポリシーモデルと、強化学習(RL)中にパラメータが凍結されたままの、個別に訓練された報酬モデルとをペアリングする。
この分離は複雑なリソース集約パイプラインを生成し、静的な報酬信号のためにパフォーマンス天井に悩まされる。
本稿では,1つのモデルと1つのトレーニングフェーズにおいて,命令追従(プレイヤ)と報酬モデリング(リフレ)を統一する新しいフレームワーク,Unified Reward & Policy Optimization (URPO)を提案する。
提案手法は,すべてのアライメントデータを含む選好ペア,検証可能な推論,オープンな指示を,単一グループ相対ポリシー最適化(GRPO)ループで最適化された統一生成形式に再キャストする。
これにより、モデルは、オープンなタスクに対して、自身の報酬を同時に生成しながら、地味な好みと検証可能なロジックから学習することができる。
Qwen2.5-7Bモデルの実験はURPOの優位性を示している。
本モデルでは,AlpacaEval の命令追従スコアを 42.24 から 44.84 に,合成推論平均を 32.66 から 35.66 に引き上げた。
さらに、URPOは訓練の副産物として優れた内部評価器を育成し、RewardBenchスコア85.15を達成し、その代替となる専用報酬モデル(83.55)を上回った。
個別の報酬モデルの必要性を排除し、生成と評価の間の共進化的ダイナミクスを育むことにより、URPOはよりシンプルで、より効率的で、より効果的な言語モデルへのパスを提供する。
関連論文リスト
- Activation Reward Models for Few-Shot Model Alignment [77.37511364793515]
アクティベーションリワードモデル(アクティベーションRM)について紹介する。
アクティベーションRMはアクティベーションステアリングを利用して、最小限の監督と追加のモデル微調整を使わずに、適切に整合した報酬信号を構築する。
我々は、報酬ハッキング行動の緩和におけるアクティベーションRMの有効性を実証し、安全クリティカルなアプリケーションに対するそれらの実用性を強調した。
論文 参考訳(メタデータ) (2025-07-02T05:10:29Z) - A Unified Pairwise Framework for RLHF: Bridging Generative Reward Modeling and Policy Optimization [18.892740849961456]
Reinforcement Learning from Human Feedback (RLHF) は、大規模言語モデルと人間の好みを協調させる重要なパラダイムとして生まれてきた。
本稿では,これらの課題に対処するRLHFフレームワークであるPairwise-RLを紹介する。
論文 参考訳(メタデータ) (2025-04-07T11:34:48Z) - Beyond Bradley-Terry Models: A General Preference Model for Language Model Alignment [51.14207112118503]
我々は、優先順位を効率的に捉えるために、応答を潜在空間に埋め込むアプローチである選好埋め込みを導入する。
また、人間からのフィードバックから報酬に基づく強化学習を一般化する嗜好スコアに基づく一般選好最適化(GPO)を提案する。
提案手法は,基礎モデルの微妙な人的価値との整合性を高めることができる。
論文 参考訳(メタデータ) (2024-10-03T04:22:55Z) - HAF-RM: A Hybrid Alignment Framework for Reward Model Training [51.59246299566669]
報酬モデルトレーニングのためのハイブリッドアライメントフレームワークHaF-RMを提案する。
報酬モデルのパフォーマンスとアライメントを高めるための、原則的で効果的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-07-04T23:26:56Z) - Robust Preference Optimization through Reward Model Distillation [68.65844394615702]
Direct Preference Optimization (DPO) は、プライオリティデータに基づいてポリシーを直接訓練する一般的なオフラインアライメント手法である。
我々はこの現象を分析し、蒸留を用いて生成対よりも真の嗜好分布のより良いプロキシを得る。
以上の結果から,このような報酬モデルからの蒸留は,優先アノテーションの分布変化に対するロバスト性の向上につながることが示唆された。
論文 参考訳(メタデータ) (2024-05-29T17:39:48Z) - SimPO: Simple Preference Optimization with a Reference-Free Reward [43.136307294076545]
直接選好最適化 (DPO) は、広く使われているオフライン選好最適化アルゴリズムである。
我々はDPOに対するよりシンプルで効果的なアプローチであるSimPOを提案する。
SimPO は、応答長を大幅に増加させることなく、DPO を一貫して大幅に上回る。
論文 参考訳(メタデータ) (2024-05-23T16:01:46Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences [21.5605000515622]
本稿では,大言語モデル(LLM)の学習後,オラクルからの嗜好フィードバックを用いて,モデル自体を反復的に改善する手法について検討する。
提案手法は,理論的な一般化と対照的な学習の単純さと安定性を,一般の選好の最適化からマージする,証明可能かつ効率的なアルゴリズムである。
実験で得られた 7B パラメータ Orca-2.5 モデルは,AlpacaE 2.0 上で 33% の GPT-4-Turbo に対して,初期化モデルに対して 26% (7% から 33%) の絶対ゲインを達成した。
論文 参考訳(メタデータ) (2024-04-04T17:56:41Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - West-of-N: Synthetic Preferences for Self-Improving Reward Models [20.643537269666137]
合成選好データを生成することによって報酬モデルの品質を向上させる新しい手法を提案する。
提案手法は,同量の人選好データの追加に匹敵する効果で,報酬モデルの性能向上を図っている。
論文 参考訳(メタデータ) (2024-01-22T16:24:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。