論文の概要: PVPO: Pre-Estimated Value-Based Policy Optimization for Agentic Reasoning
- arxiv url: http://arxiv.org/abs/2508.21104v1
- Date: Thu, 28 Aug 2025 09:18:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:10.830148
- Title: PVPO: Pre-Estimated Value-Based Policy Optimization for Agentic Reasoning
- Title(参考訳): PVPO:エージェント推論のための事前見積値ベースのポリシー最適化
- Authors: Wenfeng Feng, Penghong Zhao, Guochao Jiang, Chuzhan Hao, Yuewei Zhang, Hao Wang,
- Abstract要約: 本稿では,アドバンスト参照アンカーとデータ事前サンプリングによって強化された効率的な強化学習手法であるPVPOを提案する。
このアプローチは,複数のタスクにまたがる堅牢な一般化を示すだけでなく,さまざまなスケールのモデルにまたがるスケーラブルなパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 5.922794597824468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Critic-free reinforcement learning methods, particularly group policies, have attracted considerable attention for their efficiency in complex tasks. However, these methods rely heavily on multiple sampling and comparisons within the policy to estimate advantage, which may cause the policy to fall into local optimum and increase computational cost. To address these issues, we propose PVPO, an efficient reinforcement learning method enhanced by an advantage reference anchor and data pre-sampling. Specifically, we use the reference model to rollout in advance and employ the calculated reward score as a reference anchor. Our approach effectively corrects the cumulative bias introduced by intra-group comparisons and significantly reduces reliance on the number of rollouts. Meanwhile, the reference model can assess sample difficulty during data pre-sampling, enabling effective selection of high-gain data to improve training efficiency. Experiments conducted on nine datasets across two domains demonstrate that PVPO achieves State-Of-The-Art (SOTA) performance. Our approach not only demonstrates robust generalization across multiple tasks, but also exhibits scalable performance across models of varying scales.
- Abstract(参考訳): 批判のない強化学習法、特に集団政策は、複雑な作業においてその効率性に大きな注目を集めている。
しかしながら、これらの手法は、利点を推定するためにポリシー内の複数のサンプリングと比較に大きく依存しているため、ポリシーは局所的な最適化に陥り、計算コストが増大する可能性がある。
これらの課題に対処するために,優位な参照アンカーとデータ事前サンプリングによって強化された効率的な強化学習手法であるPVPOを提案する。
具体的には,参照モデルを用いて事前にロールアウトし,計算した報酬スコアを基準アンカーとして利用する。
本手法は,グループ間比較による累積バイアスを効果的に補正し,ロールアウト数への依存を著しく低減する。
一方、参照モデルは、データの事前サンプリング中のサンプルの難易度を評価することができ、高利得データの効率的な選択を可能にして、トレーニング効率を向上させることができる。
PVPOがSOTA(State-Of-The-Art)のパフォーマンスを達成することを示す。
このアプローチは,複数のタスクにまたがる堅牢な一般化を示すだけでなく,さまざまなスケールのモデルにまたがるスケーラブルなパフォーマンスを示す。
関連論文リスト
- GFRIEND: Generative Few-shot Reward Inference through EfficieNt DPO [3.189559302776161]
人間のフィードバックから強化学習の効率性とスケーラビリティを高めるためには,高性能な報酬モデルを数ショットデータでトレーニングする能力が重要である。
本稿では,小規模データセットでトレーニングした生成報酬モデルが大規模データセットでトレーニングしたモデルに匹敵するパフォーマンスを実現するためのデータ拡張拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-10T16:37:13Z) - A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning [61.403275660120606]
強化学習(Reinforcement Learning, RL)に基づく微調整は, 拡散モデルとブラックボックスの目的を整合させる強力なアプローチとして登場した。
拡散微調整のための新しいRLであるLOOP(Left-one-out PPO)を提案する。
以上の結果から, LOOPは様々なブラックボックス対象の拡散モデルを効果的に改善し, 計算効率と性能のバランスを良くすることを示す。
論文 参考訳(メタデータ) (2025-03-02T13:43:53Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Sample Dropout: A Simple yet Effective Variance Reduction Technique in
Deep Policy Optimization [18.627233013208834]
重要度サンプリングを用いることで, 目的推定値に高いばらつきが生じる可能性が示唆された。
そこで本研究では, サンプルの偏差が高すぎる場合に, サンプルをドロップアウトすることで, 推定分散を束縛する, サンプルドロップアウトと呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2023-02-05T04:44:35Z) - Bootstrap Advantage Estimation for Policy Optimization in Reinforcement
Learning [16.999444076456268]
本稿では,政策最適化のためのデータ拡張に基づく利点推定手法を提案する。
本手法では,ブートストラップの利点推定の計算にデータ拡張を用いる。
提案手法は,一般化された優位性推定よりも,ポリシと値損失を低減させる。
論文 参考訳(メタデータ) (2022-10-13T19:30:43Z) - Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。
複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文 参考訳(メタデータ) (2020-10-21T13:43:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。