論文の概要: PTR-PPO: Proximal Policy Optimization with Prioritized Trajectory Replay
- arxiv url: http://arxiv.org/abs/2112.03798v1
- Date: Tue, 7 Dec 2021 16:15:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-08 15:28:29.490260
- Title: PTR-PPO: Proximal Policy Optimization with Prioritized Trajectory Replay
- Title(参考訳): PTR-PPO:優先順位付き軌道リプレイによる近似的ポリシー最適化
- Authors: Xingxing Liang and Yang Ma and Yanghe Feng and Zhong Liu
- Abstract要約: オンラインの深層強化学習アルゴリズムは、データ利用率を低くし、政策改善にかなりの経験を必要とする。
本稿では,サンプリング効率を向上させるために,プライオリティ付きトラジェクトリ・リプレイ(PTR-PPO)を提案する。
我々は,Atari離散制御タスクの集合におけるPTR-PPOの性能を評価し,最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 4.0388304511445146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On-policy deep reinforcement learning algorithms have low data utilization
and require significant experience for policy improvement. This paper proposes
a proximal policy optimization algorithm with prioritized trajectory replay
(PTR-PPO) that combines on-policy and off-policy methods to improve sampling
efficiency by prioritizing the replay of trajectories generated by old
policies. We first design three trajectory priorities based on the
characteristics of trajectories: the first two being max and mean trajectory
priorities based on one-step empirical generalized advantage estimation (GAE)
values and the last being reward trajectory priorities based on normalized
undiscounted cumulative reward. Then, we incorporate the prioritized trajectory
replay into the PPO algorithm, propose a truncated importance weight method to
overcome the high variance caused by large importance weights under multistep
experience, and design a policy improvement loss function for PPO under
off-policy conditions. We evaluate the performance of PTR-PPO in a set of Atari
discrete control tasks, achieving state-of-the-art performance. In addition, by
analyzing the heatmap of priority changes at various locations in the priority
memory during training, we find that memory size and rollout length can have a
significant impact on the distribution of trajectory priorities and, hence, on
the performance of the algorithm.
- Abstract(参考訳): on-policy 深層強化学習アルゴリズムは、データ利用量が少なく、政策改善にかなりの経験を必要とする。
本稿では,オン・ポリシー法とオフ・ポリシー法を組み合わせた優先順位付き軌道再生(ptr-ppo)を用いた近距離政策最適化アルゴリズムを提案する。
まず,1段階の総合的優位推定(GAE)値に基づく1段階の最大軌道と平均軌道の優先度と,正規化されていない累積報酬に基づく報酬軌道の優先度という3つの軌道の優先順位を設計する。
そこで我々は,PPOアルゴリズムに優先トラジェクトリ・リプレイを導入し,多段階経験下での重み付き重み付けによる高分散を克服する重み付け手法を提案し,非政治条件下でのPPOの政策改善損失関数を設計する。
我々は,Atari離散制御タスクの集合におけるPTR-PPOの性能を評価し,最先端の性能を実現する。
さらに,訓練中の優先メモリの様々な場所での優先度変化のヒートマップを解析することにより,メモリサイズとロールアウト長がトラジェクトリ優先度の分布に大きく影響し,従ってアルゴリズムの性能に影響を及ぼすことがわかった。
関連論文リスト
- A dynamical clipping approach with task feedback for Proximal Policy Optimization [29.855219523565786]
最適なPPOクリッピング境界がトレーニングプロセス全体を通して一貫していることの理論的証明はない。
過去の研究は、PPOクリッピングバウンドを動的に調整し、PPOの性能を向上させることを目的としている。
我々は、強化学習タスクの嗜好(最大回帰)をよりよく反映するために、Preference based Proximal Policy Optimization (Pb-PPO)を提案する。
論文 参考訳(メタデータ) (2023-12-12T06:35:56Z) - Clipped-Objective Policy Gradients for Pessimistic Policy Optimization [3.2996723916635275]
政策勾配法は、政策出力の有界変化を通じて単調な改善を図っている。
本研究では,PPOの性能を連続的な作用空間に適用した場合,目的の単純変化によって一貫した改善が期待できることを示す。
PPO と PPO の両目標に比較して, COPG の目標が平均的な「悲観的」であること, 2) この悲観主義は探索を促進させることを示した。
論文 参考訳(メタデータ) (2023-11-10T03:02:49Z) - Dropout Strategy in Reinforcement Learning: Limiting the Surrogate
Objective Variance in Policy Optimization Methods [0.0]
政策に基づく強化学習アルゴリズムは様々な分野で広く利用されている。
これらのアルゴリズムは、ポリシー反復に重要サンプリングを導入する。
これにより、サロゲートの目的の分散度が高くなり、アルゴリズムの安定性と収束度に間接的に影響を及ぼす。
論文 参考訳(メタデータ) (2023-10-31T11:38:26Z) - Decoupled Prioritized Resampling for Offline RL [120.49021589395005]
オフライン強化学習のためのオフライン優先体験再生(OPER)を提案する。
OPERは、高度に反転する遷移を優先するように設計された優先順位関数のクラスを備えており、トレーニング中により頻繁に訪問することができる。
優先順位関数のクラスは行動ポリシーの改善を誘導し、この改善されたポリシーに制約された場合、ポリシー制約付きオフラインRLアルゴリズムによりより良い解が得られる可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-08T17:56:46Z) - You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。
比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。
本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。
ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T20:26:56Z) - Offline RL Without Off-Policy Evaluation [49.11859771578969]
政治Qを用いた制約付き/規則化された政策改善の一段階を単に行うだけで、行動方針の予測が驚くほどうまく機能することを示す。
この1ステップのアルゴリズムは、D4RLベンチマークの大部分において、以前報告された反復アルゴリズムの結果を上回っている。
論文 参考訳(メタデータ) (2021-06-16T16:04:26Z) - Iterative Amortized Policy Optimization [147.63129234446197]
政策ネットワークは、継続的制御のための深層強化学習(RL)アルゴリズムの中心的な特徴である。
変分推論の観点からは、ポリシーネットワークは、ポリシー分布を直接ではなく、ネットワークパラメータを最適化する、テキスト化最適化の一形態である。
我々は,反復的アモート化ポリシ最適化により,ベンチマーク連続制御タスクの直接アモート化よりも性能が向上することが実証された。
論文 参考訳(メタデータ) (2020-10-20T23:25:42Z) - Proximal Deterministic Policy Gradient [20.951797549505986]
政治以外の強化学習(RL)アルゴリズムを改善するための2つの手法を提案する。
我々は、現在最先端のオフポリシーアルゴリズムでよく使われている2つの値関数を利用して、改善されたアクション値推定を提供する。
標準連続制御RLベンチマークにおいて,最先端アルゴリズムよりも高い性能向上を示す。
論文 参考訳(メタデータ) (2020-08-03T10:19:59Z) - Implementation Matters in Deep Policy Gradients: A Case Study on PPO and
TRPO [90.90009491366273]
本稿では,2つの一般的なアルゴリズムのケーススタディにより,ディープポリシー勾配アルゴリズムにおけるアルゴリズムの進歩のルーツについて検討する。
具体的には,「コードレベルの最適化」の結果について検討する。
以上の結果から, (a) TRPOに対するPPOの累積報酬のほとんどを担っていることが示され, (b) RL メソッドの動作方法が根本的に変化していることが示唆された。
論文 参考訳(メタデータ) (2020-05-25T16:24:59Z) - Optimizing for the Future in Non-Stationary MDPs [52.373873622008944]
本稿では,今後の性能予測を最大化するポリシ勾配アルゴリズムを提案する。
我々のアルゴリズムであるPrognosticatorは2つのオンライン適応手法よりも非定常性に頑健であることを示す。
論文 参考訳(メタデータ) (2020-05-17T03:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。