論文の概要: Joint action loss for proximal policy optimization
- arxiv url: http://arxiv.org/abs/2301.10919v1
- Date: Thu, 26 Jan 2023 03:42:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-27 14:28:39.205259
- Title: Joint action loss for proximal policy optimization
- Title(参考訳): 近位政策最適化のための共同動作損失
- Authors: Xiulei Song, Yizhao Jin, Greg Slabaugh, Simon Lucas
- Abstract要約: PPOは最先端のポリシー勾配アルゴリズムであり、Dota 2やHonor of Kingsのような複雑なコンピュータゲームにうまく適用されている。
関節と別個の確率を組み合わせた多作用混合損失を提案する。
当社のハイブリッドモデルは,OpenAIのPPOベンチマーク結果と比較して,異なる MuJoCo 環境で50%以上のパフォーマンス向上を実現しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: PPO (Proximal Policy Optimization) is a state-of-the-art policy gradient
algorithm that has been successfully applied to complex computer games such as
Dota 2 and Honor of Kings. In these environments, an agent makes compound
actions consisting of multiple sub-actions. PPO uses clipping to restrict
policy updates. Although clipping is simple and effective, it is not efficient
in its sample use. For compound actions, most PPO implementations consider the
joint probability (density) of sub-actions, which means that if the ratio of a
sample (state compound-action pair) exceeds the range, the gradient the sample
produces is zero. Instead, for each sub-action we calculate the loss
separately, which is less prone to clipping during updates thereby making
better use of samples. Further, we propose a multi-action mixed loss that
combines joint and separate probabilities. We perform experiments in
Gym-$\mu$RTS and MuJoCo. Our hybrid model improves performance by more than
50\% in different MuJoCo environments compared to OpenAI's PPO benchmark
results. And in Gym-$\mu$RTS, we find the sub-action loss outperforms the
standard PPO approach, especially when the clip range is large. Our findings
suggest this method can better balance the use-efficiency and quality of
samples.
- Abstract(参考訳): PPO(Proximal Policy Optimization)は、Dota 2やHonor of Kingsのような複雑なコンピュータゲームに適用された最先端のポリシー勾配アルゴリズムである。
これらの環境では、エージェントは複数のサブアクションからなる複合作用を行う。
PPOは、ポリシー更新を制限するためにクリップを使用する。
クリッピングは単純で効果的であるが, 試料使用では有効ではない。
複合作用の場合、ほとんどのPPO実装は部分作用の結合確率(密度)を考慮しており、サンプル(状態複作用対)の比が範囲を超えた場合、サンプルが生成する勾配はゼロである。
代わりに、各サブアクションに対して、損失を別々に計算します。
さらに,ジョイントと分離確率を組み合わせたマルチアクション混合損失を提案する。
Gym-$\mu$RTS と MuJoCo で実験を行った。
当社のハイブリッドモデルは,OpenAIのPPOベンチマーク結果と比較して,異なる MuJoCo 環境における性能を50%以上向上させる。
そして、Gym-$\mu$RTSでは、特にクリップ範囲が大きい場合、サブアクション損失は標準的なPPOアプローチよりも優れている。
本手法は, 試料の使用効率と品質のバランスを良くすると考えられる。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - A dynamical clipping approach with task feedback for Proximal Policy Optimization [29.855219523565786]
最適なPPOクリッピング境界がトレーニングプロセス全体を通して一貫していることの理論的証明はない。
過去の研究は、PPOクリッピングバウンドを動的に調整し、PPOの性能を向上させることを目的としている。
我々は、強化学習タスクの嗜好(最大回帰)をよりよく反映するために、Preference based Proximal Policy Optimization (Pb-PPO)を提案する。
論文 参考訳(メタデータ) (2023-12-12T06:35:56Z) - Sample Dropout: A Simple yet Effective Variance Reduction Technique in
Deep Policy Optimization [18.627233013208834]
重要度サンプリングを用いることで, 目的推定値に高いばらつきが生じる可能性が示唆された。
そこで本研究では, サンプルの偏差が高すぎる場合に, サンプルをドロップアウトすることで, 推定分散を束縛する, サンプルドロップアウトと呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2023-02-05T04:44:35Z) - You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。
比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。
本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。
ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T20:26:56Z) - The Surprising Effectiveness of MAPPO in Cooperative, Multi-Agent Games [67.47961797770249]
マルチエージェントPPO(MAPPO)は、集中型値関数を採用するマルチエージェントPPOバリアントである。
MAPPOは,3つの一般的なマルチエージェントテストベッドにおいて,最先端技術に匹敵する性能を実現していることを示す。
論文 参考訳(メタデータ) (2021-03-02T18:59:56Z) - Minimax Off-Policy Evaluation for Multi-Armed Bandits [58.7013651350436]
有界報酬を用いたマルチアームバンディットモデルにおけるオフポリシー評価の問題点について検討する。
3つの設定でミニマックスレート・オプティマティックな手順を開発。
論文 参考訳(メタデータ) (2021-01-19T18:55:29Z) - Sparse Feature Selection Makes Batch Reinforcement Learning More Sample
Efficient [62.24615324523435]
本稿では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を行う。
候補となる機能が多数存在する場合,提案手法がバッチRLをより効率的にサンプリングできるという事実に光を当てる。
論文 参考訳(メタデータ) (2020-11-08T16:48:02Z) - Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。
複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文 参考訳(メタデータ) (2020-10-21T13:43:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。