論文の概要: Revisiting Some Common Practices in Cooperative Multi-Agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2206.07505v1
- Date: Wed, 15 Jun 2022 13:03:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-17 00:27:34.215987
- Title: Revisiting Some Common Practices in Cooperative Multi-Agent
Reinforcement Learning
- Title(参考訳): 協調型マルチエージェント強化学習における共通実践の再考
- Authors: Wei Fu, Chao Yu, Zelai Xu, Jiaqi Yang, and Yi Wu
- Abstract要約: 高いマルチモーダルな報酬ランドスケープ、価値分解、パラメータ共有が問題になり、望ましくない結果をもたらす可能性があることを示す。
対照的に、個々のポリシーを持つポリシー勾配(PG)法は、これらの場合において最適解に確実に収束する。
本稿では,多エージェントPGアルゴリズムの実装に関する実践的提案を行う。
- 参考スコア(独自算出の注目度): 11.91425153754564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many advances in cooperative multi-agent reinforcement learning (MARL) are
based on two common design principles: value decomposition and parameter
sharing. A typical MARL algorithm of this fashion decomposes a centralized
Q-function into local Q-networks with parameters shared across agents. Such an
algorithmic paradigm enables centralized training and decentralized execution
(CTDE) and leads to efficient learning in practice. Despite all the advantages,
we revisit these two principles and show that in certain scenarios, e.g.,
environments with a highly multi-modal reward landscape, value decomposition,
and parameter sharing can be problematic and lead to undesired outcomes. In
contrast, policy gradient (PG) methods with individual policies provably
converge to an optimal solution in these cases, which partially supports some
recent empirical observations that PG can be effective in many MARL testbeds.
Inspired by our theoretical analysis, we present practical suggestions on
implementing multi-agent PG algorithms for either high rewards or diverse
emergent behaviors and empirically validate our findings on a variety of
domains, ranging from the simplified matrix and grid-world games to complex
benchmarks such as StarCraft Multi-Agent Challenge and Google Research
Football. We hope our insights could benefit the community towards developing
more general and more powerful MARL algorithms. Check our project website at
https://sites.google.com/view/revisiting-marl.
- Abstract(参考訳): 協調型マルチエージェント強化学習(MARL)における多くの進歩は、値分解とパラメータ共有という2つの共通設計原則に基づいている。
この手法の典型的なmarlアルゴリズムは、エージェント間でパラメータを共有するローカルなq-ネットワークに中央集権的なq-関数を分解する。
このようなアルゴリズムパラダイムは、集中的なトレーニングと分散実行(CTDE)を可能にし、実際に効率的な学習を実現する。
これらの利点にもかかわらず、これらの2つの原則を再考し、例えば、高いマルチモーダルな報酬の展望、価値の分解、パラメータ共有といった特定のシナリオでは問題があり、望ましくない結果につながることを示す。
対照的に、個々の政策を持つ政策勾配法(PG)は、これらの場合において最適解に確実に収束し、PGが多くのMARLテストベッドで有効であるという最近の経験的な観察を部分的に支持している。
我々の理論分析から着想を得て,多エージェントPGアルゴリズムを高報酬あるいは多様な創発的行動に実装する実践的提案を行い,単純化された行列ゲームやグリッドワールドゲームから,StarCraft Multi-Agent ChallengeやGoogle Research Footballといった複雑なベンチマークまで,さまざまな領域での知見を実証的に検証した。
私たちの洞察が、より汎用的でより強力なmarlアルゴリズムを開発するコミュニティに利益をもたらすことを願っています。
プロジェクトのwebサイトはhttps://sites.google.com/view/revisiting-marl。
関連論文リスト
- POGEMA: A Benchmark Platform for Cooperative Multi-Agent Navigation [76.67608003501479]
主評価指標の基礎に基づいて計算された領域関連メトリクスの範囲を定義する評価プロトコルを導入・指定する。
このような比較の結果は、様々な最先端のMARL、検索ベース、ハイブリッド手法を含むものである。
論文 参考訳(メタデータ) (2024-07-20T16:37:21Z) - Ensembling Prioritized Hybrid Policies for Multi-agent Pathfinding [18.06081009550052]
MARL(Multi-Agent Reinforcement Learning)をベースとしたMAPF(Multi-Agent Path Finding)が最近注目されている。
いくつかのMARL-MAPFメソッドは、あるエージェントが知覚できる情報を豊かにするためにコミュニケーションを使用する。
優先度付きハイブリッドポリシ(EPH)を組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-12T11:47:12Z) - Context-Aware Bayesian Network Actor-Critic Methods for Cooperative
Multi-Agent Reinforcement Learning [7.784991832712813]
本稿では, エージェントの行動選択の相関関係を, 共同政策に導入するベイズネットワークを提案する。
本研究では,コンテキスト認識型ベイズ型ネットワークポリシを学習するための実用的なアルゴリズムを開発した。
MARLベンチマークの実証結果は,我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2023-06-02T21:22:27Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - Towards Global Optimality in Cooperative MARL with the Transformation
And Distillation Framework [26.612749327414335]
分散実行は協調型マルチエージェント強化学習(MARL)における中核的要求である
本稿では,マルチエージェントポリシー勾配法と値分解法という,分散ポリシを用いた2つの一般的なアルゴリズムのクラスを理論的に解析する。
我々は,TAD-PPO が有限マルチエージェント MDP において最適政策学習を理論的に行うことができることを示す。
論文 参考訳(メタデータ) (2022-07-12T06:59:13Z) - The Multi-Agent Pickup and Delivery Problem: MAPF, MARL and Its
Warehouse Applications [2.969705152497174]
マルチエージェントピックアップおよび配送問題に対する2つの最先端ソリューションを,異なる原理に基づいて検討した。
具体的には、コンフリクトベースサーチ(CBS)と呼ばれるMAPFアルゴリズムと、共有経験アクター批判(SEAC)と呼ばれる現在のMARLアルゴリズムについて検討する。
論文 参考訳(メタデータ) (2022-03-14T13:23:35Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - Q-Mixing Network for Multi-Agent Pathfinding in Partially Observable
Grid Environments [62.997667081978825]
部分的に観測可能なグリッド環境におけるマルチエージェントナビゲーションの問題点を考察する。
エージェントがまず、観察を行動にマッピングする方針を学習し、その目的を達成するためにこれらの方針に従うとき、強化学習アプローチを活用することを提案する。
論文 参考訳(メタデータ) (2021-08-13T09:44:47Z) - Benchmarking Multi-Agent Deep Reinforcement Learning Algorithms in
Cooperative Tasks [11.480994804659908]
マルチエージェント深部強化学習(MARL)は、一般的に使われている評価課題や基準の欠如に悩まされている。
我々は,MARLアルゴリズムの3つのクラスを体系的に評価し,比較する。
我々の実験は、異なる学習課題におけるアルゴリズムの期待性能の基準として機能する。
論文 参考訳(メタデータ) (2020-06-14T11:22:53Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。