論文の概要: Enhancing PPO with Trajectory-Aware Hybrid Policies
- arxiv url: http://arxiv.org/abs/2502.15968v1
- Date: Fri, 21 Feb 2025 22:00:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:53:24.567918
- Title: Enhancing PPO with Trajectory-Aware Hybrid Policies
- Title(参考訳): 軌道対応ハイブリッドポリシによるPPOの強化
- Authors: Qisai Liu, Zhanhong Jiang, Hsin-Jung Yang, Mahsa Khosravi, Joshua R. Waite, Soumik Sarkar,
- Abstract要約: PPO(Proximal Policy Optimization)は、最先端のオンライン・ポリシー・アルゴリズムの1つである。
高分散と高サンプルの複雑さは、いまだにオン・ポリティクスのアルゴリズムにおいて重要な課題である。
本稿では,トラジェクトリ・リプレイバッファを用いて,近年のポリシーによって生成されるトラジェクトリを効率的に活用するハイブリッド・ポリシー・プロキシ・ポリシー・オプティマイズ(HP3O)を提案する。
- 参考スコア(独自算出の注目度): 6.938941097426891
- License:
- Abstract: Proximal policy optimization (PPO) is one of the most popular state-of-the-art on-policy algorithms that has become a standard baseline in modern reinforcement learning with applications in numerous fields. Though it delivers stable performance with theoretical policy improvement guarantees, high variance, and high sample complexity still remain critical challenges in on-policy algorithms. To alleviate these issues, we propose Hybrid-Policy Proximal Policy Optimization (HP3O), which utilizes a trajectory replay buffer to make efficient use of trajectories generated by recent policies. Particularly, the buffer applies the "first in, first out" (FIFO) strategy so as to keep only the recent trajectories to attenuate the data distribution drift. A batch consisting of the trajectory with the best return and other randomly sampled ones from the buffer is used for updating the policy networks. The strategy helps the agent to improve its capability on top of the most recent best performance and in turn reduce variance empirically. We theoretically construct the policy improvement guarantees for the proposed algorithm. HP3O is validated and compared against several baseline algorithms using multiple continuous control environments. Our code is available here.
- Abstract(参考訳): 近接ポリシー最適化(PPO)は、現代強化学習において多くの分野で応用される標準ベースラインとなっている、最先端のオンデマンドアルゴリズムの1つである。
理論的な政策改善の保証とともに安定した性能を提供するが、高分散と高サンプルの複雑さは、いまだにオン政治アルゴリズムにおいて重要な課題である。
これらの問題を緩和するために,トラジェクトリ・リプレイバッファを用いて,近年のポリシーによって生成されるトラジェクトリを効率的に活用するハイブリッド・ポリシー・プロキシ・ポリシー・オプティマイズ (HP3O) を提案する。
特にバッファは、データ分散のドリフトを減衰させるために、最近の軌跡のみを保持するために、"first in, first out" (FIFO) 戦略を適用している。
ポリシーネットワークを更新するために、最良のリターンを持つ軌道とバッファからランダムにサンプリングされた他の軌道からなるバッチを使用する。
この戦略は、エージェントが最新の最高のパフォーマンスの上にその能力を改善するのに役立つ。
提案アルゴリズムのポリシー改善保証を理論的に構築する。
HP3Oは、複数の連続制御環境を用いて、複数のベースラインアルゴリズムに対して検証され、比較される。
私たちのコードはここにある。
関連論文リスト
- Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。
比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。
本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。
ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T20:26:56Z) - Hinge Policy Optimization: Rethinking Policy Improvement and
Reinterpreting PPO [6.33198867705718]
政策最適化は強化学習アルゴリズムを設計するための基本原理である。
優れた経験的性能にもかかわらず、PPO-clipは今まで理論的な証明によって正当化されていない。
PPO-クリップの変種に対する最適ポリシーへの大域収束を証明できるのはこれが初めてである。
論文 参考訳(メタデータ) (2021-10-26T15:56:57Z) - EnTRPO: Trust Region Policy Optimization Method with Entropy
Regularization [1.599072005190786]
信頼地域政策最適化(Trust Region Policy Optimization, TRPO)は、強化学習における政策探索アルゴリズムである。
本研究では、リプレイバッファを用いて、政治以外の学習環境からTRPOに借用する。
TRPO において、時間ステップで蓄積される pi の利点を生かすためにエントロピー正則化項を付加する。
論文 参考訳(メタデータ) (2021-10-26T03:04:00Z) - Offline RL Without Off-Policy Evaluation [49.11859771578969]
政治Qを用いた制約付き/規則化された政策改善の一段階を単に行うだけで、行動方針の予測が驚くほどうまく機能することを示す。
この1ステップのアルゴリズムは、D4RLベンチマークの大部分において、以前報告された反復アルゴリズムの結果を上回っている。
論文 参考訳(メタデータ) (2021-06-16T16:04:26Z) - Near Optimal Policy Optimization via REPS [33.992374484681704]
emphrelative entropy policy search (reps) は多くのシミュレーションと実世界のロボットドメインでポリシー学習に成功した。
勾配に基づく解法を用いる場合、REPSの性能には保証がない。
最適規則化ポリシーに好適な収束を維持するためのパラメータ更新を計算するために,基礎となる決定プロセスへの表現的アクセスを利用する手法を提案する。
論文 参考訳(メタデータ) (2021-03-17T16:22:59Z) - Proximal Policy Optimization Smoothed Algorithm [0.0]
我々はPPOの変種であるPPOS(Proximal Policy Optimization Smooth Algorithm)を提案する。
その重要な改善点は、フラットなクリッピング法の代わりに機能的なクリッピング法を使用することである。
連続制御タスクにおける性能と安定性の両面で、最新のPPOのバリエーションよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-04T07:43:50Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Queueing Network Controls via Deep Reinforcement Learning [0.0]
待ち行列ネットワークのためのポリシ最適化アルゴリズムを開発した。
このアルゴリズムは、文学における最先端よりも優れた制御ポリシーを一貫して生成する。
PPOアルゴリズムの成功の鍵は、相対値関数を推定するために3つの分散還元技術を使用することである。
論文 参考訳(メタデータ) (2020-07-31T01:02:57Z) - Optimizing for the Future in Non-Stationary MDPs [52.373873622008944]
本稿では,今後の性能予測を最大化するポリシ勾配アルゴリズムを提案する。
我々のアルゴリズムであるPrognosticatorは2つのオンライン適応手法よりも非定常性に頑健であることを示す。
論文 参考訳(メタデータ) (2020-05-17T03:41:19Z) - Provably Efficient Exploration in Policy Optimization [117.09887790160406]
本稿では,最適化アルゴリズム(OPPO)の最適変種を提案する。
OPPO は $tildeO(sqrtd2 H3 T )$ regret を達成する。
我々の知る限りでは、OPPOは、探索する最初の証明可能な効率的なポリシー最適化アルゴリズムである。
論文 参考訳(メタデータ) (2019-12-12T08:40:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。