論文の概要: Listwise Policy Optimization: Group-based RLVR as Target-Projection on the LLM Response Simplex
- arxiv url: http://arxiv.org/abs/2605.06139v1
- Date: Thu, 07 May 2026 12:38:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.777485
- Title: Listwise Policy Optimization: Group-based RLVR as Target-Projection on the LLM Response Simplex
- Title(参考訳): リストワイズポリシー最適化:LLM応答簡易性に基づく目標投影としてのグループベースRLVR
- Authors: Yun Qu, Qi Wang, Yixiu Mao, Heming Zou, Yuhang Jiang, Yingyue Li, Wutong Xu, Lizhou Cai, Weijie Liu, Clive Bai, Kai Yang, Yangkun Chen, Saiyong Yang, Xiangyang Ji,
- Abstract要約: 検証可能な報酬(RLVR)による強化学習は、推論能力のインセンティブを得るための訓練後の大規模言語モデル(LLM)の標準的アプローチとなっている。
この研究は、これらの最適化戦略が共通の幾何学的構造を共有していることを明らかにする。
本稿では,ターゲット投影を明示的に行うためにLPO(Listwise Policy Optimization)を提案する。これは応答単純度に近似RLの目的を限定することで暗黙の目標をデミストし,正確な発散最小化によってポリシーを投影する。
- 参考スコア(独自算出の注目度): 43.502315311491635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has become a standard approach for large language models (LLMs) post-training to incentivize reasoning capacity. Among existing recipes, group-based policy gradient is prevalent, which samples a group of responses per prompt and updates the policy via group-relative advantage signals. This work reveals that these optimization strategies share a common geometric structure: each implicitly defines a target distribution on the response simplex and projects toward it via first-order approximation. Building on this insight, we propose Listwise Policy Optimization (LPO) to explicitly conduct the target-projection, which demystifies the implicit target by restricting the proximal RL objective to the response simplex, and then projects the policy via exact divergence minimization. This framework provides (i) monotonic improvement on the listwise objective with bounded, zero-sum, and self-correcting projection gradients, and (ii) flexibility in divergence selection with distinct structural properties through the decoupled projection step. On diverse reasoning tasks and LLM backbones, LPO consistently improves training performance over typical policy gradient baselines under matched targets, while intrinsically preserving optimization stability and response diversity.
- Abstract(参考訳): 検証可能な報酬(RLVR)による強化学習は、推論能力のインセンティブを得るための訓練後の大規模言語モデル(LLM)の標準的アプローチとなっている。
既存のレシピの中で、グループベースのポリシー勾配が一般的であり、プロンプト毎にレスポンスのグループをサンプリングし、グループ相対的なアドバンテージ信号を通じてポリシーを更新する。
この研究は、これらの最適化戦略が共通の幾何学的構造を共有していることを明らかにする。
この知見に基づいて、我々は、ターゲット投射を明示的に行うためのリスワイズポリシー最適化(LPO)を提案し、これは、応答の単純さに近似RL目標を制限し、暗黙の目標をデミストし、正確な発散最小化を通じてポリシーを投影する。
このフレームワークが提供します
(i)有界、零サム、自己補正射影勾配によるリストワイド目的に対する単調な改善、及び
二 分離射影工程による異なる構造特性を有する発散選択の柔軟性。
多様な推論タスクとLLMバックボーンにおいて、LPOは、最適化安定性と応答多様性を本質的に保ちながら、マッチした目標の下での典型的な方針勾配ベースラインよりもトレーニング性能を一貫して改善する。
関連論文リスト
- f-GRPO and Beyond: Divergence-Based Reinforcement Learning Algorithms for General LLM Alignment [15.396104072574104]
政治強化学習のクラスであるf群相対政策最適化(f-GRPO)とf-Hybrid Alignment Loss(f-HAL)を提案する。
我々は、これらの目的のクラスがアライメント後の平均報酬を改善することを理論的に保証する。
論文 参考訳(メタデータ) (2026-02-05T18:01:52Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization [133.27496265096445]
我々は,グループ相対的政策最適化を,その適合性を検討することなく,マルチリワード設定で適用する方法を示す。
次に、これらの問題を解決するための新しい政策最適化手法であるグループ報酬分離正規化政策最適化(GDPO)を紹介する。
GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を示す。
論文 参考訳(メタデータ) (2026-01-08T18:59:24Z) - Value-Free Policy Optimization via Reward Partitioning [0.08192907805418585]
単軌道強化学習のための新しい手法であるReward Partitioning Optimization (RPO)を導入する。
RPOは、データから直接推定されるアプローチを使用して、観察された報酬を正規化する。
我々は,Flan-T5エンコーダデコーダモデルを用いて,スカラーフィードバック言語モデリングタスクにおけるRPOの有効性を検証する。
論文 参考訳(メタデータ) (2025-06-16T17:06:27Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。