論文の概要: Semi-On-Policy Training for Sample Efficient Multi-Agent Policy
Gradients
- arxiv url: http://arxiv.org/abs/2104.13446v1
- Date: Tue, 27 Apr 2021 19:37:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-29 21:16:31.956302
- Title: Semi-On-Policy Training for Sample Efficient Multi-Agent Policy
Gradients
- Title(参考訳): サンプル効率の良いマルチエージェント政策グラディエントのためのセミオン・ポリシトレーニング
- Authors: Bozhidar Vasilev, Tarun Gupta, Bei Peng, Shimon Whiteson
- Abstract要約: 本稿では,オンライン政策グラデーション手法のサンプル非効率性に効果的かつ効率的な手法として,セミ・オン・ポリティ(SOP)トレーニングを導入する。
提案手法は,様々なSMACタスクにおいて,最先端の値ベース手法よりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 51.749831824106046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Policy gradient methods are an attractive approach to multi-agent
reinforcement learning problems due to their convergence properties and
robustness in partially observable scenarios. However, there is a significant
performance gap between state-of-the-art policy gradient and value-based
methods on the popular StarCraft Multi-Agent Challenge (SMAC) benchmark. In
this paper, we introduce semi-on-policy (SOP) training as an effective and
computationally efficient way to address the sample inefficiency of on-policy
policy gradient methods. We enhance two state-of-the-art policy gradient
algorithms with SOP training, demonstrating significant performance
improvements. Furthermore, we show that our methods perform as well or better
than state-of-the-art value-based methods on a variety of SMAC tasks.
- Abstract(参考訳): 政策勾配法は, 部分的に観測可能なシナリオにおいて, 収束特性と堅牢性から, 多エージェント強化学習問題への魅力的なアプローチである。
しかし、人気の高いStarCraft Multi-Agent Challenge (SMAC)ベンチマークでは、最先端のポリシー勾配とバリューベースのメソッドの間に大きなパフォーマンスギャップがある。
本稿では,オンライン政策グラデーション手法のサンプル非効率性に効果的かつ効率的な手法として,セミオン政治(SOP)トレーニングを導入する。
我々は、SOPトレーニングによる2つの最先端ポリシー勾配アルゴリズムを強化し、大幅な性能向上を示す。
さらに,本手法は,多種多様なSMACタスクにおいて,最先端の値ベース手法よりも優れた性能を示すことを示す。
関連論文リスト
- Off-OAB: Off-Policy Policy Gradient Method with Optimal Action-Dependent Baseline [47.16115174891401]
本稿では,この分散問題を緩和するために,最適な行動依存ベースライン (Off-OAB) を用いた非政治政策勾配法を提案する。
提案手法は,OpenAI Gym と MuJoCo の6つの代表タスクに対して提案手法を評価する。
論文 参考訳(メタデータ) (2024-05-04T05:21:28Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Bag of Tricks for Natural Policy Gradient Reinforcement Learning [87.54231228860495]
我々は,自然政策勾配強化学習のパフォーマンスに影響を及ぼす戦略を実装し,比較した。
提案されたパフォーマンス最適化戦略の収集は、MuJuCoコントロールベンチマークにおいて、結果を86%から181%改善することができる。
論文 参考訳(メタデータ) (2022-01-22T17:44:19Z) - Probabilistic Mixture-of-Experts for Efficient Deep Reinforcement
Learning [7.020079427649125]
学習効率と性能向上のためには,非特異な最適タスクに対する識別可能なスキルの把握が不可欠であることを示す。
マルチモーダル政策のための確率的混合専門家(PMOE)と、無差問題に対する新しい勾配推定器を提案する。
論文 参考訳(メタデータ) (2021-04-19T08:21:56Z) - Off-Policy Multi-Agent Decomposed Policy Gradients [30.389041305278045]
我々は、MAPGアルゴリズムの性能を阻害する原因を調査し、マルチエージェント分解ポリシー勾配法(DOP)を提案する。
DOPは効率的な非政治学習をサポートし、中央集権型ミスマッチと信用割当の問題に対処する。
さらに、StarCraft IIマイクロマネジメントベンチマークとマルチエージェント粒子環境に関する実証的な評価は、DOPが最先端の値ベースおよびポリシーベースのマルチエージェント強化学習アルゴリズムよりも大幅に優れていることを示している。
論文 参考訳(メタデータ) (2020-07-24T02:21:55Z) - Variational Policy Propagation for Multi-agent Reinforcement Learning [68.26579560607597]
本稿では,エージェント間の相互作用を通じて,共役ポリシーを学習するために,変動ポリシー伝搬 (VPP) という,共役型多エージェント強化学習アルゴリズムを提案する。
共同政策がマルコフランダム場(Markov Random Field)であることは、いくつかの穏やかな条件下で証明し、それによって政策空間を効果的に減少させる。
我々は、マルコフ確率場から効率的に行動をサンプリングでき、全体的な政策が微分可能であるようなポリシーにおいて、変動推論を特別な微分可能な層として統合する。
論文 参考訳(メタデータ) (2020-04-19T15:42:55Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。