論文の概要: ExO-PPO: an Extended Off-policy Proximal Policy Optimization Algorithm
- arxiv url: http://arxiv.org/abs/2602.09726v1
- Date: Tue, 10 Feb 2026 12:29:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.533341
- Title: ExO-PPO: an Extended Off-policy Proximal Policy Optimization Algorithm
- Title(参考訳): ExO-PPO:拡張型オフポリティポリシ最適化アルゴリズム
- Authors: Hanyong Wang, Menglong Yang,
- Abstract要約: より効率的な非政治データ利用による保守的オン・ポリティクス反復の安定性保証に基づく新しいPPO変種を提案する。
PPOと他の最先端の変種と比較して、バランスの取れたサンプル効率と各種タスクの安定性により、ExO-PPOの性能が向上することを示した。
- 参考スコア(独自算出の注目度): 2.6813717321945103
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep reinforcement learning has been able to solve various tasks successfully, however, due to the construction of policy gradient and training dynamics, tuning deep reinforcement learning models remains challenging. As one of the most successful deep reinforcement-learning algorithm, the Proximal Policy Optimization algorithm (PPO) clips the policy gradient within a conservative on-policy updates, which ensures reliable and stable policy improvement. However, this training pattern may sacrifice sample efficiency. On the other hand, off-policy methods make more adequate use of data through sample reuse, though at the cost of increased the estimation variance and bias. To leverage the advantages of both, in this paper, we propose a new PPO variant based on the stability guarantee from conservative on-policy iteration with a more efficient off-policy data utilization. Specifically, we first derive an extended off-policy improvement from an expectation form of generalized policy improvement lower bound. Then, we extend the clipping mechanism with segmented exponential functions for a suitable surrogate objective function. Third, the trajectories generated by the past $M$ policies are organized in the replay buffer for off-policy training. We refer to this method as Extended Off-policy Proximal Policy Optimization (ExO-PPO). Compared with PPO and some other state-of-the-art variants, we demonstrate an improved performance of ExO-PPO with balanced sample efficiency and stability on varied tasks in the empirical experiments.
- Abstract(参考訳): 深層強化学習は様々な課題をうまく解くことができたが、政策勾配と訓練力学の構築により、深層強化学習モデルのチューニングは依然として困難である。
最も成功した強化学習アルゴリズムの1つとして、PPO(Proximal Policy Optimization algorithm)は、保守的なオン・ポリシーの更新の中でポリシーの勾配をクリップし、信頼性と安定したポリシー改善を保証する。
しかし、このトレーニングパターンはサンプル効率を犠牲にする可能性がある。
一方、非政治的手法は、推定分散とバイアスの増大を犠牲にしながら、サンプル再利用を通じてデータをより適切に活用する。
本稿では,両手法の利点を生かし,より効率的な非政治データ利用による保守的オン・ポリティクス反復の安定性保証に基づく新しいPPO変種を提案する。
具体的には、まず、一般化された政策改善の下限の期待形式から、拡張された非政治的改善を導出する。
次に, 分割指数関数によるクリッピング機構を, 適切な代理対象関数に対して拡張する。
第3に、過去の$M$ポリシーによって生成されたトラジェクトリは、オフポリシートレーニングのためのリプレイバッファに整理される。
本稿では,この手法をExO-PPO(Extended Off-policy Proximal Policy Optimization)と呼ぶ。
実験実験では,PPOおよび他の最先端の変種と比較して,サンプル効率のバランスと各種タスクの安定性を両立させたExO-PPOの性能向上を実証した。
関連論文リスト
- Behaviour Policy Optimization: Provably Lower Variance Return Estimates for Off-Policy Reinforcement Learning [52.97053840476386]
我々は、よく設計された行動ポリシーを用いて、分散リターン推定を確実に低くするために、政治外のデータを収集できることを示します。
我々は、この重要な洞察を、政策評価と改善の両方がインターリーブされるオンライン強化学習環境に拡張する。
論文 参考訳(メタデータ) (2025-11-13T23:06:40Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - Polychromic Objectives for Reinforcement Learning [63.37185057794815]
強化学習微調整(Reinforcement Learning fine-tuning, RLFT)は、下流タスクの事前訓練されたポリシーを改善するための主要なパラダイムである。
多様な世代の探索・改良を明示的に実施する政策手法の目的について紹介する。
この目的を最適化するために、PPO(Pximal Policy Optimization)をどのように適用できるかを示す。
論文 参考訳(メタデータ) (2025-09-29T19:32:11Z) - Improving DAPO from a Mixed-Policy Perspective [6.237966553429477]
本稿では,動的sAmpling Policy Optimization (DAPO)アルゴリズムに2つの新しい修正を加えている。
まず、政治以外の経験を提供するための、事前訓練された安定した指導方針を取り入れた手法を提案する。
次に、このアイデアを拡張してゼロ逆サンプルを再利用し、しばしば動的サンプリング戦略によって破棄される。
論文 参考訳(メタデータ) (2025-07-17T09:12:09Z) - EXPO: Stable Reinforcement Learning with Expressive Policies [74.30151915786233]
2つのパラメータ化ポリシーで値の最大化を実現するために,サンプル効率のよいオンライン強化学習アルゴリズムを提案する。
提案手法は, 従来手法に比べて試料効率を最大2~3倍向上させる。
論文 参考訳(メタデータ) (2025-07-10T17:57:46Z) - Off-OAB: Off-Policy Policy Gradient Method with Optimal Action-Dependent Baseline [47.16115174891401]
本稿では,この分散問題を緩和するために,最適な行動依存ベースライン (Off-OAB) を用いた非政治政策勾配法を提案する。
提案手法は,OpenAI Gym と MuJoCo の6つの代表タスクに対して提案手法を評価する。
論文 参考訳(メタデータ) (2024-05-04T05:21:28Z) - Clipped-Objective Policy Gradients for Pessimistic Policy Optimization [3.2996723916635275]
政策勾配法は、政策出力の有界変化を通じて単調な改善を図っている。
本研究では,PPOの性能を連続的な作用空間に適用した場合,目的の単純変化によって一貫した改善が期待できることを示す。
PPO と PPO の両目標に比較して, COPG の目標が平均的な「悲観的」であること, 2) この悲観主義は探索を促進させることを示した。
論文 参考訳(メタデータ) (2023-11-10T03:02:49Z) - Proximal Policy Optimization Smoothed Algorithm [0.0]
我々はPPOの変種であるPPOS(Proximal Policy Optimization Smooth Algorithm)を提案する。
その重要な改善点は、フラットなクリッピング法の代わりに機能的なクリッピング法を使用することである。
連続制御タスクにおける性能と安定性の両面で、最新のPPOのバリエーションよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-04T07:43:50Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。