論文の概要: DVPO: Distributional Value Modeling-based Policy Optimization for LLM Post-Training
- arxiv url: http://arxiv.org/abs/2512.03847v1
- Date: Wed, 03 Dec 2025 14:48:38 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:15:20.188823
- Title: DVPO: Distributional Value Modeling-based Policy Optimization for LLM Post-Training
- Title(参考訳): DVPO: LLMポストトライニングのための分布値モデリングに基づくポリシー最適化
- Authors: Dingwei Zhu, Zhiheng Xi, Shihan Dou, Yuhui Wang, Sixian Li, Junjie Ye, Honglin Guo, Shichun Liu, Chenhao Huang, Yajie Yang, Junlin Shang, Senjie Jin, Ming Zhang, Jiazheng Zhang, Caishuang Huang, Yunke Zhang, Demei Yan, Yuran Wang, Tao Gui,
- Abstract要約: 本稿では、条件付きリスク理論と分布値モデリングを組み合わせた新しいRLフレームワークであるDVPOを紹介し、ロバスト性と一般化のバランスを改善する。
DVPOはPPO、GRPO、ロバストなベルマンベースのPPOを常に上回っている。
- 参考スコア(独自算出の注目度): 45.777138699734024
- License:
- Abstract: Reinforcement learning (RL) has shown strong performance in LLM post-training, but real-world deployment often involves noisy or incomplete supervision. In such settings, complex and unreliable supervision signals can destabilize training and harm generalization. While existing approaches such as worst-case optimization (e.g., RFQI, CQL) and mean-based methods (e.g., PPO, GRPO) can improve stability, they often overlook generalization and may produce overly conservative policies, leading to uneven performance across diverse real scenarios. To this end, we introduce DVPO (Distributional Value Modeling with Risk-aware Policy Optimization), a new RL framework that combines conditional risk theory with distributional value modeling to better balance robustness and generalization. DVPO learns token-level value distributions to provide fine-grained supervision, and applies an asymmetric risk regularization to shape the distribution tails: it contracts the lower tail to dampen noisy negative deviations, while expanding the upper tail to preserve exploratory diversity. Across extensive experiments and analysis in multi-turn dialogue, math reasoning, and scientific QA, DVPO consistently outperforms PPO, GRPO, and robust Bellman-based PPO under noisy supervision, showing its potential for LLM post-training in the real-world.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、LLMのポストトレーニングにおいて高いパフォーマンスを示しているが、実世界の展開にはノイズや不完全な監督が伴うことが多い。
このような環境では、複雑で信頼性の低い監視信号がトレーニングを不安定化し、一般化を損なう可能性がある。
最悪のケース最適化(例えば、RFQI、CQL)や平均ベースの手法(例えば、PPO、GRPO)のような既存のアプローチは安定性を向上させることができるが、一般化を見落とし、過度に保守的なポリシーを生成するため、様々な現実シナリオで不均一なパフォーマンスをもたらす可能性がある。
この目的のために我々は、条件付きリスク理論と分散価値モデリングを組み合わせた新しいRLフレームワークであるDVPO(Distributional Value Modeling with Risk-Aware Policy Optimization)を導入し、ロバスト性と一般化のバランスを改善する。
DVPOはトークンレベルの値分布を学習して詳細な監視を提供し、非対称なリスク正規化を適用して分布尾を形作る。
マルチターン対話、数学推論、科学QAにおける広範な実験と分析において、DVPOはPPO、GRPO、ロバストなベルマンベースのPPOよりも常に優れており、実世界でのLLMポストトレーニングの可能性を示している。
関連論文リスト
- BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - Reinforcement Fine-Tuning of Flow-Matching Policies for Vision-Language-Action Models [7.316631310935769]
VLA(Vision-Language-Action)モデルは、大規模なデモンストレーションを活用することで、強力な一般化を示している。
本研究では,FPOアルゴリズムを提案する。FPOアルゴリズムは,条件付きフローマッチングの目的に対して,サンプルごとの変化を生かして,重要サンプリングを再構築する。
LIBEROベンチマークのFPOとALOHAシミュレーションタスクを、教師付き、嗜好的、拡散的、自己回帰的オンラインRLに対して評価する。
論文 参考訳(メタデータ) (2025-10-11T03:11:18Z) - RiskPO: Risk-based Policy Optimization via Verifiable Reward for LLM Post-Training [13.309653291779233]
検証可能な報酬を伴う強化学習は、大規模言語モデル(LLM)の訓練後の中心パラダイムとして浮上している。
これらの問題は、稀だが有意義な推論パスを無視しながら、高確率な出力シーケンスを過度に強調することに起因すると我々は主張する。
本稿では,古典的平均的目標を原則的リスク対策に置き換えるリスクベース政策最適化(RiskPO)を提案する。
論文 参考訳(メタデータ) (2025-10-01T13:53:09Z) - ACPO: Adaptive Curriculum Policy Optimization for Aligning Vision-Language Models in Complex Reasoning [17.928214942495412]
ACPOは、安定的で、準政治的な探索段階から、効率的で、非政治的な搾取段階へ、原則的な移行を編成する動的カリキュラムを採用している。
我々は、MathVista、LogicVista、MMMU-Proなど、挑戦的なマルチモーダル推論ベンチマークのスイートで広範な実験を行う。
その結果,ACPOはDAPOやPAPOなどの強いベースラインを一貫して上回り,最先端性能,収束の促進,訓練安定性の向上を実現している。
論文 参考訳(メタデータ) (2025-10-01T09:11:27Z) - GTPO: Trajectory-Based Policy Optimization in Large Language Models [42.60363805227946]
政策に基づく最適化は、今日の言語モデルのトレーニングとアライメントに広く採用されている。
本稿では,GRPOの2つの大きな限界を明らかにし,解析する。
コンフリクトトークンを識別するGTPOを導入する。
論文 参考訳(メタデータ) (2025-08-05T08:15:01Z) - On-Policy RL with Optimal Reward Baseline [109.47676554514193]
On-Policy RL with Optimal reward baseline (OPO) は、新しい簡易強化学習アルゴリズムである。
OPOは、訓練プロセスを実証的に安定化し、探索を強化する、正確なオンライントレーニングの重要性を強調している。
その結果、OPOの優れた性能と訓練安定性を、追加のモデルや正規化条件なしで示すことができた。
論文 参考訳(メタデータ) (2025-05-29T15:58:04Z) - Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance [52.65461207786633]
政策に基づく人間からのフィードバックからの強化学習は、大きな言語モデルと人間の嗜好の整合に不可欠である。
俳優と批評家の合同トレーニングと、事前訓練された一定の報酬モデルによる指導が必要である。
従来の報酬モデリングを事前訓練されたEmphglobal Value Model(GVM)に置き換えるリーンフレームワークである textbfDecoupled Value Policy Optimization (DVPO) を提案する。
論文 参考訳(メタデータ) (2025-02-24T08:11:33Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。