論文の概要: PVPO: Pre-Estimated Value-Based Policy Optimization for Agentic Reasoning
- arxiv url: http://arxiv.org/abs/2508.21104v3
- Date: Fri, 19 Sep 2025 02:37:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 12:06:46.369739
- Title: PVPO: Pre-Estimated Value-Based Policy Optimization for Agentic Reasoning
- Title(参考訳): PVPO:エージェント推論のための事前見積値ベースのポリシー最適化
- Authors: Wenfeng Feng, Penghong Zhao, Guochao Jiang, Chuzhan Hao, Yuewei Zhang, Guohua Liu, Hao Wang,
- Abstract要約: 本稿では,アドバンスト参照アンカーとデータ事前サンプリングによって強化された効率的な強化学習手法であるPVPOを提案する。
本手法は,グループ内比較によって生じる累積バイアスを効果的に補正し,トレーニング中のロールアウト数への依存を著しく低減する。
このアプローチは,複数のタスクにまたがる堅牢な一般化を示すだけでなく,さまざまなスケールのモデルにまたがるスケーラブルなパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 6.050409262589219
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Critic-free reinforcement learning methods, particularly group policies, have attracted considerable attention for their efficiency in complex tasks. However, these methods rely heavily on multiple sampling and comparisons within the policy to estimate advantage, which may cause the policy to fall into local optimum and increase computational cost. To address these issues, we propose PVPO, an efficient reinforcement learning method enhanced by an advantage reference anchor and data pre-sampling. Specifically, we use the reference model to rollout in advance and employ the calculated reward score as a reference anchor. Our approach effectively corrects the cumulative bias introduced by intra-group comparisons and significantly reduces reliance on the number of rollouts during training. Meanwhile, the reference model can assess sample difficulty during data pre-sampling, enabling effective selection of high-gain data to improve training efficiency. Moreover, PVPO is orthogonal to other advanced critic-free RL algorithms, making it compatible with and complementary to these methods. Experiments conducted on nine datasets across two domains demonstrate that PVPO achieves State-Of-The-Art (SOTA) performance. Our approach not only demonstrates robust generalization across multiple tasks, but also exhibits scalable performance across models of varying scales.
- Abstract(参考訳): 批判のない強化学習法、特に集団政策は、複雑な作業においてその効率性に大きな注目を集めている。
しかしながら、これらの手法は、利点を推定するためにポリシー内の複数のサンプリングと比較に大きく依存しているため、ポリシーは局所的な最適化に陥り、計算コストが増大する可能性がある。
これらの課題に対処するために,優位な参照アンカーとデータ事前サンプリングによって強化された効率的な強化学習手法であるPVPOを提案する。
具体的には,参照モデルを用いて事前にロールアウトし,計算した報酬スコアを基準アンカーとして利用する。
本手法は,グループ内比較によって生じる累積バイアスを効果的に補正し,トレーニング中のロールアウト数への依存を著しく低減する。
一方、参照モデルは、データの事前サンプリング中のサンプルの難易度を評価することができ、高利得データの効率的な選択を可能にして、トレーニング効率を向上させることができる。
さらにPVPOは、他の高度な批判のないRLアルゴリズムと直交しており、これらの手法と互換性があり、補完的である。
PVPOがSOTA(State-Of-The-Art)のパフォーマンスを達成することを示す。
このアプローチは,複数のタスクにまたがる堅牢な一般化を示すだけでなく,さまざまなスケールのモデルにまたがるスケーラブルなパフォーマンスを示す。
関連論文リスト
- Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - Maximizing the efficiency of human feedback in AI alignment: a comparative analysis [1.561268797057701]
RLHF(Reinforcement Learning from Human Feedback)における選好推論のための代替サンプリングと評価戦略について検討する。
我々の最高のパフォーマンス手法であるSwiss InfoGainは、プロキシ相互情報ゲインペアリングルールを備えたスイスのトーナメントシステムを採用しており、制約付きアノテーション予算において他の方法よりも大幅に優れています。
本実験は,適応的資源認識戦略が冗長性を低減し,堅牢性を向上し,嗜好学習における統計的に有意な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2025-11-16T21:55:59Z) - Behaviour Policy Optimization: Provably Lower Variance Return Estimates for Off-Policy Reinforcement Learning [52.97053840476386]
我々は、よく設計された行動ポリシーを用いて、分散リターン推定を確実に低くするために、政治外のデータを収集できることを示します。
我々は、この重要な洞察を、政策評価と改善の両方がインターリーブされるオンライン強化学習環境に拡張する。
論文 参考訳(メタデータ) (2025-11-13T23:06:40Z) - GFRIEND: Generative Few-shot Reward Inference through EfficieNt DPO [3.189559302776161]
人間のフィードバックから強化学習の効率性とスケーラビリティを高めるためには,高性能な報酬モデルを数ショットデータでトレーニングする能力が重要である。
本稿では,小規模データセットでトレーニングした生成報酬モデルが大規模データセットでトレーニングしたモデルに匹敵するパフォーマンスを実現するためのデータ拡張拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-10T16:37:13Z) - AAPO: Enhancing the Reasoning Capabilities of LLMs with Advantage Momentum [36.105117202321544]
大規模言語モデル(LLM)の推論能力を高める効果的なアプローチとして強化学習(RL)が登場している。
グループ相対的優位性推定は、値モデルへの依存性を排除したことでかなりの注目を集めている。
本稿では,モーメントに基づく推定手法によって強化された利点を用いて,クロスエントロピー損失を最適化する新しいRLアルゴリズムであるAdvantage-Augmented Policy Optimization (AAPO)を提案する。
論文 参考訳(メタデータ) (2025-05-20T12:13:44Z) - A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning [61.403275660120606]
強化学習(Reinforcement Learning, RL)に基づく微調整は, 拡散モデルとブラックボックスの目的を整合させる強力なアプローチとして登場した。
拡散微調整のための新しいRLであるLOOP(Left-one-out PPO)を提案する。
以上の結果から, LOOPは様々なブラックボックス対象の拡散モデルを効果的に改善し, 計算効率と性能のバランスを良くすることを示す。
論文 参考訳(メタデータ) (2025-03-02T13:43:53Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Sample Dropout: A Simple yet Effective Variance Reduction Technique in
Deep Policy Optimization [18.627233013208834]
重要度サンプリングを用いることで, 目的推定値に高いばらつきが生じる可能性が示唆された。
そこで本研究では, サンプルの偏差が高すぎる場合に, サンプルをドロップアウトすることで, 推定分散を束縛する, サンプルドロップアウトと呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2023-02-05T04:44:35Z) - Bootstrap Advantage Estimation for Policy Optimization in Reinforcement
Learning [16.999444076456268]
本稿では,政策最適化のためのデータ拡張に基づく利点推定手法を提案する。
本手法では,ブートストラップの利点推定の計算にデータ拡張を用いる。
提案手法は,一般化された優位性推定よりも,ポリシと値損失を低減させる。
論文 参考訳(メタデータ) (2022-10-13T19:30:43Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。
複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文 参考訳(メタデータ) (2020-10-21T13:43:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。