論文の概要: MAC-PO: Multi-Agent Experience Replay via Collective Priority
Optimization
- arxiv url: http://arxiv.org/abs/2302.10418v1
- Date: Tue, 21 Feb 2023 03:11:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-22 16:33:59.055903
- Title: MAC-PO: Multi-Agent Experience Replay via Collective Priority
Optimization
- Title(参考訳): mac-po:集団優先最適化によるマルチエージェント体験リプレイ
- Authors: Yongsheng Mei, Hanhan Zhou, Tian Lan, Guru Venkataramani, Peng Wei
- Abstract要約: マルチエージェント問題に対する最適優先体験再生を定式化する名前を提案する。
結果として生じた政策の後悔を最小限にすることで、現在の政策と明確な最適政策とのギャップを狭めることができる。
- 参考スコア(独自算出の注目度): 12.473095790918347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Experience replay is crucial for off-policy reinforcement learning (RL)
methods. By remembering and reusing the experiences from past different
policies, experience replay significantly improves the training efficiency and
stability of RL algorithms. Many decision-making problems in practice naturally
involve multiple agents and require multi-agent reinforcement learning (MARL)
under centralized training decentralized execution paradigm. Nevertheless,
existing MARL algorithms often adopt standard experience replay where the
transitions are uniformly sampled regardless of their importance. Finding
prioritized sampling weights that are optimized for MARL experience replay has
yet to be explored. To this end, we propose \name, which formulates optimal
prioritized experience replay for multi-agent problems as a regret minimization
over the sampling weights of transitions. Such optimization is relaxed and
solved using the Lagrangian multiplier approach to obtain the close-form
optimal sampling weights. By minimizing the resulting policy regret, we can
narrow the gap between the current policy and a nominal optimal policy, thus
acquiring an improved prioritization scheme for multi-agent tasks. Our
experimental results on Predator-Prey and StarCraft Multi-Agent Challenge
environments demonstrate the effectiveness of our method, having a better
ability to replay important transitions and outperforming other
state-of-the-art baselines.
- Abstract(参考訳): 経験的リプレイは、非政治強化学習(RL)手法に不可欠である。
過去の異なるポリシーの経験を記憶し再利用することによって、経験の再生はRLアルゴリズムのトレーニング効率と安定性を大幅に改善する。
多くの意思決定問題は自然に複数のエージェントを伴い、集中的な訓練分散実行パラダイムの下でマルチエージェント強化学習(MARL)を必要とする。
それにもかかわらず、既存のmarlアルゴリズムは、その重要性に関係なく遷移を均一にサンプリングする標準的な経験リプレイを採用することが多い。
MARL体験再生に最適化された優先サンプリング重量の発見はまだ検討されていない。
そこで本稿では,遷移のサンプリング重みに対する後悔の最小化として,複数エージェント問題に対する最適優先体験再生を定式化する。
このような最適化はラグランジュ乗算法を用いて緩和・解き、近接形式の最適サンプリング重みを得る。
結果として得られた政策の後悔を最小限に抑えることで、現在の政策と明確な最適政策のギャップを狭め、マルチエージェントタスクの優先順位付けを改善できる。
プレデター・プレイおよびスタークラフト・マルチエージェント・チャレンジ環境における実験結果は,本手法の有効性を示し,重要なトランジションを再生し,他の最先端ベースラインを上回った。
関連論文リスト
- Learning and reusing primitive behaviours to improve Hindsight
Experience Replay sample efficiency [7.806014635635933]
簡単なタスクを解くために以前に学習されたプリミティブな動作を利用する手法を提案する。
このガイダンスは、手動で設計されたカリキュラムによって実行されるのではなく、むしろ批評家ネットワークを使用して、提案されたアクションを使用するかどうかを各タイムステップで決定する。
提案手法を用いることで,提案手法の効率と計算時間の両方において,エージェントがより高速にポリシを学習できることを実証する。
論文 参考訳(メタデータ) (2023-10-03T06:49:57Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Plan Better Amid Conservatism: Offline Multi-Agent Reinforcement
Learning with Actor Rectification [74.10976684469435]
オフライン強化学習(RL)アルゴリズムは、直接マルチエージェント設定に転送することができる。
本稿では,この重要な課題に対処するために,Actor Rectification (OMAR) を用いたオフラインマルチエージェント RL を提案する。
OMARはマルチエージェント連続制御ベンチマークにおける最先端性能と強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2021-11-22T13:27:42Z) - Off-Policy Correction for Deep Deterministic Policy Gradient Algorithms
via Batch Prioritized Experience Replay [0.0]
そこで我々は, KL Divergence を用いた新しいアルゴリズム Batch Prioritizing Experience Replay を開発した。
我々は,このアルゴリズムをDeep Deterministic Policy GradientとTwin Delayed Deep Deterministic Policy Gradientと組み合わせ,様々な連続制御タスクで評価する。
論文 参考訳(メタデータ) (2021-11-02T19:51:59Z) - Large Batch Experience Replay [22.473676537463607]
優先体験リプレイの新たな理論的基礎を紹介する。
LaBERは、リプレイバッファをサンプリングする簡単で効率的な方法である。
論文 参考訳(メタデータ) (2021-10-04T15:53:13Z) - Regret Minimization Experience Replay [14.233842517210437]
優先サンプリングはRL剤の性能を向上させるための有望な手法である。
本研究では,rl政策の後悔を最小限に抑える最適な優先順位付け戦略を理論的に分析する。
RM-DisCorとRM-TCEの2つの実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-15T16:08:45Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - Learning to Sample with Local and Global Contexts in Experience Replay
Buffer [135.94190624087355]
遷移の相対的重要性を計算できる学習に基づく新しいサンプリング手法を提案する。
本研究の枠組みは, 様々な非政治強化学習手法の性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:12:56Z) - Experience Replay with Likelihood-free Importance Weights [123.52005591531194]
本研究は,現在の政策の定常分布下での経験を生かし,その可能性に基づいて,その経験を再評価することを提案する。
提案手法は,ソフトアクタ批判 (SAC) とツイン遅延Deep Deterministic Policy gradient (TD3) の2つの競合手法に実証的に適用する。
論文 参考訳(メタデータ) (2020-06-23T17:17:44Z) - Scalable Multi-Agent Inverse Reinforcement Learning via
Actor-Attention-Critic [54.2180984002807]
マルチエージェント逆逆強化学習 (MA-AIRL) は, 単エージェントAIRLをマルチエージェント問題に適用する最近の手法である。
本稿では,従来の手法よりもサンプル効率が高く,スケーラブルなマルチエージェント逆RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-24T20:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。