論文の概要: Value-Free Policy Optimization via Reward Partitioning
- arxiv url: http://arxiv.org/abs/2506.13702v1
- Date: Mon, 16 Jun 2025 17:06:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:49.094017
- Title: Value-Free Policy Optimization via Reward Partitioning
- Title(参考訳): リワード分割による価値自由政策最適化
- Authors: Bilal Faye, Hanane Azzag, Mustapha Lebbah,
- Abstract要約: 単軌道強化学習のための新しい手法であるReward Partitioning Optimization (RPO)を導入する。
RPOは、データから直接推定されるアプローチを使用して、観察された報酬を正規化する。
我々は,Flan-T5エンコーダデコーダモデルを用いて,スカラーフィードバック言語モデリングタスクにおけるRPOの有効性を検証する。
- 参考スコア(独自算出の注目度): 0.08192907805418585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Single-trajectory reinforcement learning (RL) methods aim to optimize policies from datasets consisting of (prompt, response, reward) triplets, where scalar rewards are directly available. This supervision format is highly practical, as it mirrors real-world human feedback, such as thumbs-up/down signals, and avoids the need for structured preference annotations. In contrast, pairwise preference-based methods like Direct Preference Optimization (DPO) rely on datasets with both preferred and dispreferred responses, which are harder to construct and less natural to collect. Among single-trajectory approaches, Direct Reward Optimization (DRO) has shown strong empirical performance due to its simplicity and stability. However, DRO requires approximating a value function, which introduces several limitations: high off-policy variance, coupling between policy and value learning, and a lack of absolute supervision on the policy itself. We introduce Reward Partitioning Optimization (RPO), a new method that resolves these limitations by removing the need to model the value function. Instead, RPO normalizes observed rewards using a partitioning approach estimated directly from data. This leads to a straightforward supervised learning objective on the policy, with no auxiliary models and no joint optimization. RPO provides direct and stable supervision on the policy, making it robust and easy to implement in practice. We validate RPO on scalar-feedback language modeling tasks using Flan-T5 encoder-decoder models. Our results demonstrate that RPO outperforms existing single-trajectory baselines such as DRO and Kahneman-Tversky Optimization (KTO). These findings confirm that RPO is a simple, effective, and theoretically grounded method for single-trajectory policy optimization.
- Abstract(参考訳): 単一軌道強化学習(Single-trajectory reinforcement learning, RL)手法は、スカラー報酬が直接利用できるトリプレット(prompt, response, reward)からなるデータセットからポリシーを最適化することを目的としている。
この監視フォーマットは、サムアップ/ダウン信号などの現実世界の人間のフィードバックを反映し、構造化された好みアノテーションを必要としないため、非常に実用的である。
対照的に、直接選好最適化(DPO)のようなペアワイズな選好ベースの手法は、好ましくない応答と好ましくない応答の両方を持つデータセットに依存しているため、構築が難しく、収集も容易ではない。
単一軌道のアプローチの中で、DRO(Direct Reward Optimization)は、その単純さと安定性により、強い経験的性能を示している。
しかし、DROは価値関数の近似を必要とするため、政策外の分散、政策と価値学習の結合、政策自体の絶対的な監督の欠如など、いくつかの制限が生じる。
本稿では,Reward Partitioning Optimization (RPO)を導入し,値関数をモデル化する必要をなくし,これらの制約を解消する手法を提案する。
代わりに、RPOはデータから直接推定されるパーティショニングアプローチを使用して、観測された報酬を正規化する。
これにより、補助モデルがなく、共同最適化もない、直接的な教師付き学習目標がポリシー上で達成される。
RPOは、ポリシーの直接的かつ安定した監視を提供し、実際に実施しやすくする。
我々は,Flan-T5エンコーダデコーダモデルを用いて,スカラーフィードバック言語モデリングタスクにおけるRPOの有効性を検証する。
その結果, RPO は DRO や Kahneman-Tversky Optimization (KTO) などの既存の単軌道ベースラインよりも優れていた。
これらの結果から、RPOは単一軌道ポリシー最適化のための単純で効果的で理論的に基礎付けられた手法であることが明らかとなった。
関連論文リスト
- Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Learn Your Reference Model for Real Good Alignment [3.091688550418396]
大規模言語モデル(LLM)アライメントのためのオフラインメソッドは、過度な最適化の影響を受けやすい。
我々は、トレーニングプロセスを通して参照ポリシーを動的に更新する、Trust Regionと呼ばれるオフラインアライメント手法の新たなパラダイムを提案する。
この結果から,TRアライメント手法は過度な最適化を効果的に軽減し,初期基準ポリシからかなり逸脱したモデルでも高い性能を維持することができることがわかった。
論文 参考訳(メタデータ) (2024-04-15T10:44:31Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。
また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T01:07:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。