論文の概要: MASER: Multi-Agent Reinforcement Learning with Subgoals Generated from
Experience Replay Buffer
- arxiv url: http://arxiv.org/abs/2206.10607v1
- Date: Mon, 20 Jun 2022 08:12:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-23 14:06:30.725291
- Title: MASER: Multi-Agent Reinforcement Learning with Subgoals Generated from
Experience Replay Buffer
- Title(参考訳): MASER: 経験的リプレイバッファから生成されたサブゴールによるマルチエージェント強化学習
- Authors: Jeewon Jeon, Woojun Kim, Whiyoung Jung, Youngchul Sung
- Abstract要約: 本稿では,経験的再生バッファから生成されたサブゴールを持つMASER: MARLを提案する。
数値計算の結果,MASERはStarCraft IIマイクロマネジメントベンチマークを著しく上回っていることがわかった。
- 参考スコア(独自算出の注目度): 16.861004263551447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we consider cooperative multi-agent reinforcement learning
(MARL) with sparse reward. To tackle this problem, we propose a novel method
named MASER: MARL with subgoals generated from experience replay buffer. Under
the widely-used assumption of centralized training with decentralized execution
and consistent Q-value decomposition for MARL, MASER automatically generates
proper subgoals for multiple agents from the experience replay buffer by
considering both individual Q-value and total Q-value. Then, MASER designs
individual intrinsic reward for each agent based on actionable representation
relevant to Q-learning so that the agents reach their subgoals while maximizing
the joint action value. Numerical results show that MASER significantly
outperforms StarCraft II micromanagement benchmark compared to other
state-of-the-art MARL algorithms.
- Abstract(参考訳): 本稿では,スパース報酬を伴う協調型マルチエージェント強化学習(MARL)について考察する。
そこで本研究では,経験的再生バッファから生成したサブゴールを持つMASER:MARLを提案する。
MARLの分散実行と一貫したQ値分解を伴う集中トレーニングの仮定において、MASERは個別のQ値と総Q値の両方を考慮して経験再生バッファから複数のエージェントに対する適切なサブゴールを自動生成する。
そこで、MASERは、Qラーニングに関連する行動表現に基づいて、各エージェント固有の報酬を個別に設計し、エージェントが共同行動値を最大化しながらサブゴールに達するようにする。
MASERは、他の最先端のMARLアルゴリズムと比較して、StarCraft IIマイクロマネジメントベンチマークを著しく上回っている。
関連論文リスト
- Value-Based Deep Multi-Agent Reinforcement Learning with Dynamic Sparse Training [38.03693752287459]
マルチエージェント強化学習(MARL)は、マルチエージェントシナリオにおいて、多数のパラメータを持つニューラルネットワークに依存している。
本稿では,動的スパーストレーニング(DST)の利用法を提案する。
本稿では,学習目標の信頼性とサンプル分布の合理性を同時に向上することを目的とした,革新的なマルチエージェントスパーストレーニング(MAST)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-28T15:57:24Z) - Multi-Agent Reinforcement Learning with a Hierarchy of Reward Machines [5.600971575680638]
Reward Machines (RMs) を用いた協調型マルチエージェント強化学習(MARL)問題の検討
より複雑なシナリオを扱えるRM(MAHRM)階層のマルチエージェント強化学習を提案する。
3つの協調MARLドメインの実験結果から、MAHRMは、他のMARLメソッドよりも高いレベルの事象の事前知識の方が優れていることが示された。
論文 参考訳(メタデータ) (2024-03-08T06:38:22Z) - MA2CL:Masked Attentive Contrastive Learning for Multi-Agent
Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。
MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。
提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文 参考訳(メタデータ) (2023-06-03T05:32:19Z) - MASTER: Multi-task Pre-trained Bottlenecked Masked Autoencoders are
Better Dense Retrievers [140.0479479231558]
本研究では,様々な事前学習タスクをマルチタスク事前学習モデル(MASTER)に統合することを目的とする。
MASTERは共有エンコーダのマルチデコーダアーキテクチャを利用して、タスク全体にわたる豊富なセマンティック情報を高密度ベクトルに圧縮する表現ボトルネックを構築することができる。
論文 参考訳(メタデータ) (2022-12-15T13:57:07Z) - DQMIX: A Distributional Perspective on Multi-Agent Reinforcement
Learning [122.47938710284784]
協調的マルチエージェントタスクでは、エージェントのチームがアクションを取り、報酬を受け取り、次の状態を観察し、環境と共同で対話する。
既存の価値に基づく多エージェント強化学習手法のほとんどは、個々のQ値とグローバルQ値の期待をモデル化するのみである。
論文 参考訳(メタデータ) (2022-02-21T11:28:00Z) - MMD-MIX: Value Function Factorisation with Maximum Mean Discrepancy for
Cooperative Multi-Agent Reinforcement Learning [15.972363414919279]
MMD-mixは分散強化学習と値分解を組み合わせた手法である。
実験により、MDD-mixはStar Multi-Agent Challenge (SMAC)環境において、以前のベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-22T10:21:00Z) - MALib: A Parallel Framework for Population-based Multi-agent
Reinforcement Learning [61.28547338576706]
人口ベースマルチエージェント強化学習(PB-MARL)は、強化学習(RL)アルゴリズムでネストした一連の手法を指す。
PB-MARLのためのスケーラブルで効率的な計算フレームワークMALibを提案する。
論文 参考訳(メタデータ) (2021-06-05T03:27:08Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。