論文の概要: Counterfactual Multi-Agent Policy Gradients
- arxiv url: http://arxiv.org/abs/1705.08926v3
- Date: Wed, 11 Dec 2024 14:05:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-15 16:05:34.690526
- Title: Counterfactual Multi-Agent Policy Gradients
- Title(参考訳): カウンターファクトなマルチエージェントポリシーのグラディエント
- Authors: Jakob Foerster, Gregory Farquhar, Triantafyllos Afouras, Nantas Nardelli, Shimon Whiteson,
- Abstract要約: 本稿では,COMAポリシーグラデーションと呼ばれる新しいマルチエージェントアクター批判手法を提案する。
COMAは中央集権的な批評家を用いてQ-関数を推定し、エージェントのポリシーを最適化する。
我々は,StarCraftユニットのマイクロマネジメントにおけるテストベッドにおけるCOMAの評価を行った。
- 参考スコア(独自算出の注目度): 47.45255170608965
- License:
- Abstract: Cooperative multi-agent systems can be naturally used to model many real world problems, such as network packet routing and the coordination of autonomous vehicles. There is a great need for new reinforcement learning methods that can efficiently learn decentralised policies for such systems. To this end, we propose a new multi-agent actor-critic method called counterfactual multi-agent (COMA) policy gradients. COMA uses a centralised critic to estimate the Q-function and decentralised actors to optimise the agents' policies. In addition, to address the challenges of multi-agent credit assignment, it uses a counterfactual baseline that marginalises out a single agent's action, while keeping the other agents' actions fixed. COMA also uses a critic representation that allows the counterfactual baseline to be computed efficiently in a single forward pass. We evaluate COMA in the testbed of StarCraft unit micromanagement, using a decentralised variant with significant partial observability. COMA significantly improves average performance over other multi-agent actor-critic methods in this setting, and the best performing agents are competitive with state-of-the-art centralised controllers that get access to the full state.
- Abstract(参考訳): 協調型マルチエージェントシステムは、ネットワークパケットルーティングや自動運転車の協調など、現実世界の多くの問題をモデル化するために自然に使用できる。
このようなシステムの分散化政策を効果的に学習できる新しい強化学習手法が求められている。
そこで本研究では,COMAポリシーグラデーションと呼ばれるマルチエージェントアクター批判手法を提案する。
COMAは中央集権的な批評家を用いてQ-関数を推定し、エージェントのポリシーを最適化する。
さらに、マルチエージェントのクレジット割り当ての課題に対処するために、1人のエージェントのアクションを排除し、他のエージェントのアクションを固定する反ファクトのベースラインを使用する。
COMAはまた、反ファクトのベースラインを1つのフォワードパスで効率的に計算できる批評家表現を使用している。
我々は,StarCraftユニットのマイクロマネジメントにおけるテストベッドにおけるCOMAの評価を行った。
COMAは、この設定における他のマルチエージェントアクタークリティカルメソッドよりも平均性能を著しく向上させ、最高のパフォーマンスエージェントは、フル状態にアクセス可能な最先端集中型コントローラと競合する。
関連論文リスト
- Learning Emergence of Interaction Patterns across Independent RL Agents in Multi-Agent Environments [3.0284592792243794]
ボトムアップネットワーク(BUN)は、マルチエージェントの集合を統一エンティティとして扱う。
協調ナビゲーションやトラヒックコントロールなどのタスクを含む,さまざまな協調型マルチエージェントシナリオに対する実証的な評価は,BUNが計算コストを大幅に削減したベースライン手法よりも優れていることを一貫して証明している。
論文 参考訳(メタデータ) (2024-10-03T14:25:02Z) - SACHA: Soft Actor-Critic with Heuristic-Based Attention for Partially
Observable Multi-Agent Path Finding [3.4260993997836753]
我々は,ヒューリスティック・ベース・アテンション(SACHA)を用いたソフト・アクター・クリティカル(Soft Actor-Critic)と呼ばれる新しいマルチエージェント・アクター・クリティカルな手法を提案する。
SACHAは、各エージェントが最短経路ガイダンスに選択的に注目するニューラルネットワークを、その視野内の複数のエージェントから学習する。
我々は、いくつかの最先端の学習ベースMAPF法に対して、成功率とソリューション品質に関して、良好な改善を示す。
論文 参考訳(メタデータ) (2023-07-05T23:36:33Z) - RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in
Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。
RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。
提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T03:39:27Z) - Multiagent Model-based Credit Assignment for Continuous Control [3.2595483703857835]
本研究は,継続的制御のための分散マルチエージェント強化学習フレームワークを提案する。
我々はまず,集中型最適化が可能な協調型マルチエージェントPPOフレームワークを開発する。
次にエージェント固有の報酬信号を計算する汎用ゲーム理論クレジット割り当てフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-27T23:26:00Z) - Plan Better Amid Conservatism: Offline Multi-Agent Reinforcement
Learning with Actor Rectification [74.10976684469435]
オフライン強化学習(RL)アルゴリズムは、直接マルチエージェント設定に転送することができる。
本稿では,この重要な課題に対処するために,Actor Rectification (OMAR) を用いたオフラインマルチエージェント RL を提案する。
OMARはマルチエージェント連続制御ベンチマークにおける最先端性能と強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2021-11-22T13:27:42Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Monotonic Value Function Factorisation for Deep Multi-Agent
Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。
深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文 参考訳(メタデータ) (2020-03-19T16:51:51Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。