論文の概要: Learning Credit Assignment for Cooperative Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2210.05367v1
- Date: Mon, 10 Oct 2022 16:49:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 16:57:23.313385
- Title: Learning Credit Assignment for Cooperative Reinforcement Learning
- Title(参考訳): 協調強化学習のための学習クレジット割り当て
- Authors: Wubing Chen, Wenbin Li, Xiao Liu, Shangdong Yang
- Abstract要約: 本稿では,新しい勾配,textitunderlineMulti-underlineAgent UnderlinePolarization UnderlinePolicy UnderlineGradient(MAP)を提案する。
MAPGは、最適な一貫性と個々の動作を容易に実現可能な制約に変換するために、単純だが効率的な関節分極関数を用いる。
我々は、MAの個々のポリシーがグローバルな最適化に収束できることを証明した。
- 参考スコア(独自算出の注目度): 9.872143052799345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cooperative multi-agent policy gradient (MAPG) algorithms have recently
attracted wide attention and are regarded as a general scheme for the
multi-agent system. Credit assignment plays an important role in MAPG and can
induce cooperation among multiple agents. However, most MAPG algorithms cannot
achieve good credit assignment because of the game-theoretic pathology known as
\textit{centralized-decentralized mismatch}. To address this issue, this paper
presents a novel method, \textit{\underline{M}ulti-\underline{A}gent
\underline{P}olarization \underline{P}olicy \underline{G}radient} (MAPPG).
MAPPG takes a simple but efficient polarization function to transform the
optimal consistency of joint and individual actions into easily realized
constraints, thus enabling efficient credit assignment in MAPG. Theoretically,
we prove that individual policies of MAPPG can converge to the global optimum.
Empirically, we evaluate MAPPG on the well-known matrix game and differential
game, and verify that MAPPG can converge to the global optimum for both
discrete and continuous action spaces. We also evaluate MAPPG on a set of
StarCraft II micromanagement tasks and demonstrate that MAPPG outperforms the
state-of-the-art MAPG algorithms.
- Abstract(参考訳): 協調型マルチエージェントポリシー勾配(MAPG)アルゴリズムは近年広く注目されており、マルチエージェントシステムの一般的なスキームと見なされている。
クレジット割り当てはmapgにおいて重要な役割を担っており、複数のエージェント間の協力を誘導することができる。
しかし、ほとんどのMAPGアルゴリズムは「textit{centralized-decentralized mismatch}」として知られるゲーム理論の病理のため、良好な信用割当を達成できない。
この問題に対処するため,本論文では,新しい方法であるtextit{\underline{M}ulti-\underline{A}gent \underline{P}olarization \underline{P}olicy \underline{G}radient} (MAPPG)を提案する。
MAPPGは単純だが効率的な分極関数を用いて、関節と個々の動作の最適整合性を容易に実現できる制約に変換する。
理論的には、MAPPGの個々のポリシーがグローバルな最適化に収束できることを実証する。
実演的に、よく知られた行列ゲームと微分ゲームでMAPPGを評価し、MAPPGが離散的かつ連続的な行動空間のグローバルな最適度に収束できることを検証する。
また,一連のStarCraft IIマイクロマネジメントタスク上でMAPPGを評価し,MAPPGが最先端のMAPGアルゴリズムより優れていることを示す。
関連論文リスト
- Provably Efficient Information-Directed Sampling Algorithms for Multi-Agent Reinforcement Learning [50.92957910121088]
本研究は,情報指向サンプリング(IDS)の原理に基づくマルチエージェント強化学習(MARL)のための新しいアルゴリズムの設計と解析を行う。
エピソディックな2プレーヤゼロサムMGに対して、ナッシュ平衡を学習するための3つのサンプル効率アルゴリズムを提案する。
我々は、Reg-MAIDSをマルチプレイヤー汎用MGに拡張し、ナッシュ平衡または粗相関平衡をサンプル効率良く学習できることを証明する。
論文 参考訳(メタデータ) (2024-04-30T06:48:56Z) - Scalable Mechanism Design for Multi-Agent Path Finding [87.40027406028425]
MAPF (Multi-Agent Path Finding) は、複数のエージェントが同時に移動し、与えられた目標地点に向かって共有領域を通って衝突しない経路を決定する。
最適解を見つけることは、しばしば計算不可能であり、近似的な準最適アルゴリズムを用いることが不可欠である。
本稿では、MAPFのスケーラブルな機構設計の問題を紹介し、MAPFアルゴリズムを近似した3つの戦略防御機構を提案する。
論文 参考訳(メタデータ) (2024-01-30T14:26:04Z) - Provably Learning Nash Policies in Constrained Markov Potential Games [90.87573337770293]
マルチエージェント強化学習(MARL)は、複数のエージェントによるシーケンシャルな意思決定問題に対処する。
制約マルコフゲーム(Constrained Markov Games, CMGs)は、安全なMARL問題の自然な定式化である。
論文 参考訳(メタデータ) (2023-06-13T13:08:31Z) - A Cooperation Graph Approach for Multiagent Sparse Reward Reinforcement
Learning [7.2972297703292135]
マルチエージェント強化学習(MARL)は複雑な協調作業を解くことができる。
本稿では、協調グラフ(CG)と呼ばれるグラフネットワークを設計する。
協調グラフマルチエージェント強化学習(CG-MARL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-05T06:32:16Z) - Towards Global Optimality in Cooperative MARL with the Transformation
And Distillation Framework [26.612749327414335]
分散実行は協調型マルチエージェント強化学習(MARL)における中核的要求である
本稿では,マルチエージェントポリシー勾配法と値分解法という,分散ポリシを用いた2つの一般的なアルゴリズムのクラスを理論的に解析する。
我々は,TAD-PPO が有限マルチエージェント MDP において最適政策学習を理論的に行うことができることを示す。
論文 参考訳(メタデータ) (2022-07-12T06:59:13Z) - Revisiting Some Common Practices in Cooperative Multi-Agent
Reinforcement Learning [11.91425153754564]
高いマルチモーダルな報酬ランドスケープ、価値分解、パラメータ共有が問題になり、望ましくない結果をもたらす可能性があることを示す。
対照的に、個々のポリシーを持つポリシー勾配(PG)法は、これらの場合において最適解に確実に収束する。
本稿では,多エージェントPGアルゴリズムの実装に関する実践的提案を行う。
論文 参考訳(メタデータ) (2022-06-15T13:03:05Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - Off-Policy Multi-Agent Decomposed Policy Gradients [30.389041305278045]
我々は、MAPGアルゴリズムの性能を阻害する原因を調査し、マルチエージェント分解ポリシー勾配法(DOP)を提案する。
DOPは効率的な非政治学習をサポートし、中央集権型ミスマッチと信用割当の問題に対処する。
さらに、StarCraft IIマイクロマネジメントベンチマークとマルチエージェント粒子環境に関する実証的な評価は、DOPが最先端の値ベースおよびポリシーベースのマルチエージェント強化学習アルゴリズムよりも大幅に優れていることを示している。
論文 参考訳(メタデータ) (2020-07-24T02:21:55Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。