論文の概要: Quantile Reward Policy Optimization: Alignment with Pointwise Regression and Exact Partition Functions
- arxiv url: http://arxiv.org/abs/2507.08068v1
- Date: Thu, 10 Jul 2025 17:56:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.134761
- Title: Quantile Reward Policy Optimization: Alignment with Pointwise Regression and Exact Partition Functions
- Title(参考訳): 量子リワードポリシ最適化:ポイントワイド回帰と排他的分割関数によるアライメント
- Authors: Simon Matrenok, Skander Moalla, Caglar Gulcehre,
- Abstract要約: emphQuantile Reward Policy Optimization (QRPO)を導入する。
QRPO は KL-正則化 RL 目的の閉形式解への回帰を可能にするために量子的報酬を使用する。
チャットとコーディングの評価において、一貫して最高のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 0.5416466085090772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning large language models with pointwise absolute rewards has so far required online, on-policy algorithms such as PPO and GRPO. In contrast, simpler methods that can leverage offline or off-policy data, such as DPO and REBEL, are limited to learning from preference pairs or relative signals. To bridge this gap, we introduce \emph{Quantile Reward Policy Optimization} (QRPO), which learns from pointwise absolute rewards while preserving the simplicity and offline applicability of DPO-like methods. QRPO uses quantile rewards to enable regression to the closed-form solution of the KL-regularized RL objective. This reward yields an analytically tractable partition function, removing the need for relative signals to cancel this term. Moreover, QRPO scales with increased compute to estimate quantile rewards, opening a new dimension for pre-computation scaling. Empirically, QRPO consistently achieves top performance on chat and coding evaluations -- reward model scores, AlpacaEval 2, and LeetCode -- compared to DPO, REBEL, and SimPO across diverse datasets and 8B-scale models. Finally, we find that training with robust rewards instead of converting them to preferences induces less length bias.
- Abstract(参考訳): ポイントワイドな絶対報酬を持つ大規模言語モデルを調整するには、PPOやGRPOといったオンライン・オン・ポリティックなアルゴリズムが必要である。
対照的に、DPOやREBELのようなオフラインやオフラインのデータを活用できる単純な方法は、好みのペアや相対的な信号から学ぶことに限定されている。
このギャップを埋めるために、DPOライクなメソッドの単純さとオフライン適用性を保ちながら、ポイントワイドな絶対報酬から学習する \emph{Quantile Reward Policy Optimization} (QRPO) を導入する。
QRPO は KL-正則化 RL 目的の閉形式解への回帰を可能にするために量子的報酬を使用する。
この報酬は解析的にトラクタブルな分割関数となり、この項をキャンセルする相対的な信号は不要になる。
さらに、QRPOは計算量を増やして量子報酬を推定し、プリ計算スケーリングのための新しい次元を開く。
QRPOは、さまざまなデータセットと8BスケールモデルにわたるDPO、REBEL、SimPOと比較して、チャットおよびコーディング評価(報酬モデルスコア、AlpacaEval 2、LeetCode)において、一貫して最高のパフォーマンスを実現している。
最後に、リコメンデーションに変換するのではなく、ロバストな報酬によるトレーニングが、より少ない長さバイアスを引き起こすことに気付きました。
関連論文リスト
- Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文 参考訳(メタデータ) (2025-05-27T03:58:50Z) - RePO: ReLU-based Preference Optimization [47.87283407390014]
本稿では,ReLUに基づくPreference Optimization (RePO)を提案する。
RePOは、ロジスティック重み付けが二項しきい値に崩壊するSimPOの制限ケース(「infty$」の略)として特徴付けられる。
AlpacaEval 2 と Arena-Hard の実証結果は、RePO が複数のベースモデルで DPO と SimPO を上回っていることを示している。
論文 参考訳(メタデータ) (2025-03-10T15:11:07Z) - Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance [52.65461207786633]
政策に基づく人間からのフィードバックからの強化学習は、大きな言語モデルと人間の嗜好の整合に不可欠である。
俳優と批評家の合同トレーニングと、事前訓練された一定の報酬モデルによる指導が必要である。
従来の報酬モデリングを事前訓練されたEmphglobal Value Model(GVM)に置き換えるリーンフレームワークである textbfDecoupled Value Policy Optimization (DVPO) を提案する。
論文 参考訳(メタデータ) (2025-02-24T08:11:33Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Zeroth-Order Policy Gradient for Reinforcement Learning from Human Feedback without Reward Inference [15.038210624870656]
リワード推論は、ヒューマンフィードバックパイプラインからの強化学習における重要な中間ステップである。
本稿では,帯域幅を超える一般RL問題と決定論的MDP帯域幅,Bradley-Terryモデルを超える一般選好モデルについて,報酬推論のない2つのRLHFアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-09-25T22:20:11Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function [50.812404038684505]
我々は,ベルマン方程式を満たす一般逆Q-ラーニングアルゴリズムとして,トークンレベルMDPのDPOを導出できることを示す。
本稿では,マルチターン対話における情報活用,推論,エージェント応用,マルチモデルシステムのエンドツーエンドトレーニングなど,我々の研究の応用について論じる。
論文 参考訳(メタデータ) (2024-04-18T17:37:02Z) - Quantile-Based Deep Reinforcement Learning using Two-Timescale Policy
Gradient Algorithms [0.0]
ニューラルネットワークによるポリシー制御動作のパラメータ化を行い,QPO(Quantile-Based Policy Optimization)と呼ばれる新しいポリシー勾配アルゴリズムを提案する。
数値計算の結果,提案アルゴリズムは量子的基準の下で既存のベースラインアルゴリズムより優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-05-12T04:47:02Z) - Sparse Feature Selection Makes Batch Reinforcement Learning More Sample
Efficient [62.24615324523435]
本稿では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を行う。
候補となる機能が多数存在する場合,提案手法がバッチRLをより効率的にサンプリングできるという事実に光を当てる。
論文 参考訳(メタデータ) (2020-11-08T16:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。