論文の概要: MAC-PO: Multi-Agent Experience Replay via Collective Priority
Optimization
- arxiv url: http://arxiv.org/abs/2302.10418v1
- Date: Tue, 21 Feb 2023 03:11:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-22 16:33:59.055903
- Title: MAC-PO: Multi-Agent Experience Replay via Collective Priority
Optimization
- Title(参考訳): mac-po:集団優先最適化によるマルチエージェント体験リプレイ
- Authors: Yongsheng Mei, Hanhan Zhou, Tian Lan, Guru Venkataramani, Peng Wei
- Abstract要約: マルチエージェント問題に対する最適優先体験再生を定式化する名前を提案する。
結果として生じた政策の後悔を最小限にすることで、現在の政策と明確な最適政策とのギャップを狭めることができる。
- 参考スコア(独自算出の注目度): 12.473095790918347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Experience replay is crucial for off-policy reinforcement learning (RL)
methods. By remembering and reusing the experiences from past different
policies, experience replay significantly improves the training efficiency and
stability of RL algorithms. Many decision-making problems in practice naturally
involve multiple agents and require multi-agent reinforcement learning (MARL)
under centralized training decentralized execution paradigm. Nevertheless,
existing MARL algorithms often adopt standard experience replay where the
transitions are uniformly sampled regardless of their importance. Finding
prioritized sampling weights that are optimized for MARL experience replay has
yet to be explored. To this end, we propose \name, which formulates optimal
prioritized experience replay for multi-agent problems as a regret minimization
over the sampling weights of transitions. Such optimization is relaxed and
solved using the Lagrangian multiplier approach to obtain the close-form
optimal sampling weights. By minimizing the resulting policy regret, we can
narrow the gap between the current policy and a nominal optimal policy, thus
acquiring an improved prioritization scheme for multi-agent tasks. Our
experimental results on Predator-Prey and StarCraft Multi-Agent Challenge
environments demonstrate the effectiveness of our method, having a better
ability to replay important transitions and outperforming other
state-of-the-art baselines.
- Abstract(参考訳): 経験的リプレイは、非政治強化学習(RL)手法に不可欠である。
過去の異なるポリシーの経験を記憶し再利用することによって、経験の再生はRLアルゴリズムのトレーニング効率と安定性を大幅に改善する。
多くの意思決定問題は自然に複数のエージェントを伴い、集中的な訓練分散実行パラダイムの下でマルチエージェント強化学習(MARL)を必要とする。
それにもかかわらず、既存のmarlアルゴリズムは、その重要性に関係なく遷移を均一にサンプリングする標準的な経験リプレイを採用することが多い。
MARL体験再生に最適化された優先サンプリング重量の発見はまだ検討されていない。
そこで本稿では,遷移のサンプリング重みに対する後悔の最小化として,複数エージェント問題に対する最適優先体験再生を定式化する。
このような最適化はラグランジュ乗算法を用いて緩和・解き、近接形式の最適サンプリング重みを得る。
結果として得られた政策の後悔を最小限に抑えることで、現在の政策と明確な最適政策のギャップを狭め、マルチエージェントタスクの優先順位付けを改善できる。
プレデター・プレイおよびスタークラフト・マルチエージェント・チャレンジ環境における実験結果は,本手法の有効性を示し,重要なトランジションを再生し,他の最先端ベースラインを上回った。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - CoPS: Empowering LLM Agents with Provable Cross-Task Experience Sharing [70.25689961697523]
クロスタスク体験の共有と選択によるシーケンシャル推論を強化する一般化可能なアルゴリズムを提案する。
我々の研究は、既存のシーケンシャルな推論パラダイムのギャップを埋め、タスク間体験の活用の有効性を検証する。
論文 参考訳(メタデータ) (2024-10-22T03:59:53Z) - ROER: Regularized Optimal Experience Replay [34.462315999611256]
優先経験リプレイ(PER)は、時間差(TD)誤差によって経験を過度に再現する。
経験優先化と占有最適化の関連性を示す。
正規化された最適体験再生(ROER)は、難易度の高いAntmaze環境において顕著な改善を実現する。
論文 参考訳(メタデータ) (2024-07-04T15:14:57Z) - CUER: Corrected Uniform Experience Replay for Off-Policy Continuous Deep Reinforcement Learning Algorithms [5.331052581441265]
我々は,他のすべての経験の公平性を考慮しつつ,記憶された経験をサンプリングする新しいアルゴリズム,Corrected Uniform Experience (CUER) を開発した。
CUERは、トレーニング中のポリシーのサンプル効率、最終的なパフォーマンス、安定性の観点から、非政治的な継続的制御アルゴリズムに有望な改善を提供する。
論文 参考訳(メタデータ) (2024-06-13T12:03:40Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Plan Better Amid Conservatism: Offline Multi-Agent Reinforcement
Learning with Actor Rectification [74.10976684469435]
オフライン強化学習(RL)アルゴリズムは、直接マルチエージェント設定に転送することができる。
本稿では,この重要な課題に対処するために,Actor Rectification (OMAR) を用いたオフラインマルチエージェント RL を提案する。
OMARはマルチエージェント連続制御ベンチマークにおける最先端性能と強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2021-11-22T13:27:42Z) - Off-Policy Correction for Deep Deterministic Policy Gradient Algorithms
via Batch Prioritized Experience Replay [0.0]
そこで我々は, KL Divergence を用いた新しいアルゴリズム Batch Prioritizing Experience Replay を開発した。
我々は,このアルゴリズムをDeep Deterministic Policy GradientとTwin Delayed Deep Deterministic Policy Gradientと組み合わせ,様々な連続制御タスクで評価する。
論文 参考訳(メタデータ) (2021-11-02T19:51:59Z) - Large Batch Experience Replay [22.473676537463607]
優先体験リプレイの新たな理論的基礎を紹介する。
LaBERは、リプレイバッファをサンプリングする簡単で効率的な方法である。
論文 参考訳(メタデータ) (2021-10-04T15:53:13Z) - Regret Minimization Experience Replay [14.233842517210437]
優先サンプリングはRL剤の性能を向上させるための有望な手法である。
本研究では,rl政策の後悔を最小限に抑える最適な優先順位付け戦略を理論的に分析する。
RM-DisCorとRM-TCEの2つの実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-15T16:08:45Z) - Experience Replay with Likelihood-free Importance Weights [123.52005591531194]
本研究は,現在の政策の定常分布下での経験を生かし,その可能性に基づいて,その経験を再評価することを提案する。
提案手法は,ソフトアクタ批判 (SAC) とツイン遅延Deep Deterministic Policy gradient (TD3) の2つの競合手法に実証的に適用する。
論文 参考訳(メタデータ) (2020-06-23T17:17:44Z) - Scalable Multi-Agent Inverse Reinforcement Learning via
Actor-Attention-Critic [54.2180984002807]
マルチエージェント逆逆強化学習 (MA-AIRL) は, 単エージェントAIRLをマルチエージェント問題に適用する最近の手法である。
本稿では,従来の手法よりもサンプル効率が高く,スケーラブルなマルチエージェント逆RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-24T20:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。