論文の概要: Joint action loss for proximal policy optimization
- arxiv url: http://arxiv.org/abs/2301.10919v1
- Date: Thu, 26 Jan 2023 03:42:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-27 14:28:39.205259
- Title: Joint action loss for proximal policy optimization
- Title(参考訳): 近位政策最適化のための共同動作損失
- Authors: Xiulei Song, Yizhao Jin, Greg Slabaugh, Simon Lucas
- Abstract要約: PPOは最先端のポリシー勾配アルゴリズムであり、Dota 2やHonor of Kingsのような複雑なコンピュータゲームにうまく適用されている。
関節と別個の確率を組み合わせた多作用混合損失を提案する。
当社のハイブリッドモデルは,OpenAIのPPOベンチマーク結果と比較して,異なる MuJoCo 環境で50%以上のパフォーマンス向上を実現しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: PPO (Proximal Policy Optimization) is a state-of-the-art policy gradient
algorithm that has been successfully applied to complex computer games such as
Dota 2 and Honor of Kings. In these environments, an agent makes compound
actions consisting of multiple sub-actions. PPO uses clipping to restrict
policy updates. Although clipping is simple and effective, it is not efficient
in its sample use. For compound actions, most PPO implementations consider the
joint probability (density) of sub-actions, which means that if the ratio of a
sample (state compound-action pair) exceeds the range, the gradient the sample
produces is zero. Instead, for each sub-action we calculate the loss
separately, which is less prone to clipping during updates thereby making
better use of samples. Further, we propose a multi-action mixed loss that
combines joint and separate probabilities. We perform experiments in
Gym-$\mu$RTS and MuJoCo. Our hybrid model improves performance by more than
50\% in different MuJoCo environments compared to OpenAI's PPO benchmark
results. And in Gym-$\mu$RTS, we find the sub-action loss outperforms the
standard PPO approach, especially when the clip range is large. Our findings
suggest this method can better balance the use-efficiency and quality of
samples.
- Abstract(参考訳): PPO(Proximal Policy Optimization)は、Dota 2やHonor of Kingsのような複雑なコンピュータゲームに適用された最先端のポリシー勾配アルゴリズムである。
これらの環境では、エージェントは複数のサブアクションからなる複合作用を行う。
PPOは、ポリシー更新を制限するためにクリップを使用する。
クリッピングは単純で効果的であるが, 試料使用では有効ではない。
複合作用の場合、ほとんどのPPO実装は部分作用の結合確率(密度)を考慮しており、サンプル(状態複作用対)の比が範囲を超えた場合、サンプルが生成する勾配はゼロである。
代わりに、各サブアクションに対して、損失を別々に計算します。
さらに,ジョイントと分離確率を組み合わせたマルチアクション混合損失を提案する。
Gym-$\mu$RTS と MuJoCo で実験を行った。
当社のハイブリッドモデルは,OpenAIのPPOベンチマーク結果と比較して,異なる MuJoCo 環境における性能を50%以上向上させる。
そして、Gym-$\mu$RTSでは、特にクリップ範囲が大きい場合、サブアクション損失は標準的なPPOアプローチよりも優れている。
本手法は, 試料の使用効率と品質のバランスを良くすると考えられる。
関連論文リスト
- Pairwise Proximal Policy Optimization: Harnessing Relative Feedback for
LLM Alignment [37.52249093928251]
本稿では,新しい枠組み,相対的フィードバックによる強化学習,新しい軌道方向ポリシー勾配アルゴリズムを提案する。
理論的には、P3Oは等価報酬に不変であり、PPOの複雑さを避ける。
実証的な評価では、P3OはKL-RewardトレードオフにおいてPPOよりも優れており、ヒトの嗜好に合わせたり、以前の方法よりも優れていることが示されている。
論文 参考訳(メタデータ) (2023-09-30T01:23:22Z) - Learning Action Embeddings for Off-Policy Evaluation [6.385697591955264]
オフ・ポリティィ・アセスメント(OPE)法では,異なるポリシによって収集されたログデータを用いて,ポリシの期待される報酬を計算することができる。
しかし、アクションの数が多ければ、あるアクションがロギングポリシーによって探索されていない場合、逆正当性スコアリング(IPS)に基づく既存の推定器は、高いあるいは無限のばらつきを持つことができる。
Saito と Joachims は、代わりにアクション埋め込み(英語版)を用いて、大きなアクション空間における IPS のばらつきを減らし、マーシャライズされた IPS (MIPS) を提案する。
論文 参考訳(メタデータ) (2023-05-06T06:44:30Z) - Sample Dropout: A Simple yet Effective Variance Reduction Technique in
Deep Policy Optimization [18.627233013208834]
重要度サンプリングを用いることで, 目的推定値に高いばらつきが生じる可能性が示唆された。
そこで本研究では, サンプルの偏差が高すぎる場合に, サンプルをドロップアウトすることで, 推定分散を束縛する, サンプルドロップアウトと呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2023-02-05T04:44:35Z) - You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。
比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。
本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。
ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T20:26:56Z) - The Surprising Effectiveness of MAPPO in Cooperative, Multi-Agent Games [67.47961797770249]
マルチエージェントPPO(MAPPO)は、集中型値関数を採用するマルチエージェントPPOバリアントである。
MAPPOは,3つの一般的なマルチエージェントテストベッドにおいて,最先端技術に匹敵する性能を実現していることを示す。
論文 参考訳(メタデータ) (2021-03-02T18:59:56Z) - Minimax Off-Policy Evaluation for Multi-Armed Bandits [58.7013651350436]
有界報酬を用いたマルチアームバンディットモデルにおけるオフポリシー評価の問題点について検討する。
3つの設定でミニマックスレート・オプティマティックな手順を開発。
論文 参考訳(メタデータ) (2021-01-19T18:55:29Z) - Is Independent Learning All You Need in the StarCraft Multi-Agent
Challenge? [100.48692829396778]
独立PPO (Independent PPO) は独立学習の一種であり、各エージェントはその局所値関数を単純に推定する。
IPPOの強い性能は、ある種の非定常性に対する堅牢性に起因する可能性がある。
論文 参考訳(メタデータ) (2020-11-18T20:29:59Z) - Sparse Feature Selection Makes Batch Reinforcement Learning More Sample
Efficient [62.24615324523435]
本稿では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を行う。
候補となる機能が多数存在する場合,提案手法がバッチRLをより効率的にサンプリングできるという事実に光を当てる。
論文 参考訳(メタデータ) (2020-11-08T16:48:02Z) - Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。
複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文 参考訳(メタデータ) (2020-10-21T13:43:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。