論文の概要: DeCOM: Decomposed Policy for Constrained Cooperative Multi-Agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2111.05670v1
- Date: Wed, 10 Nov 2021 12:31:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-11 15:24:16.214054
- Title: DeCOM: Decomposed Policy for Constrained Cooperative Multi-Agent
Reinforcement Learning
- Title(参考訳): DeCOM: 制約付き多エージェント強化学習のための分解政策
- Authors: Zhaoxing Yang, Rong Ding, Haiming Jin, Yifei Wei, Haoyi You, Guiyun
Fan, Xiaoying Gan, Xinbing Wang
- Abstract要約: 我々は,MASeのためのテキスト制約付き協調型MARLフレームワークであるDeCOMを開発した。
DeCOMは、各エージェントのポリシーを2つのモジュールに分解し、エージェント間の情報共有により、より良い協力を実現する。
玩具と大規模(500エージェント)環境におけるDeCOMの有効性を,様々なコストで検証した。
- 参考スコア(独自算出の注目度): 26.286805758673474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, multi-agent reinforcement learning (MARL) has presented
impressive performance in various applications. However, physical limitations,
budget restrictions, and many other factors usually impose \textit{constraints}
on a multi-agent system (MAS), which cannot be handled by traditional MARL
frameworks. Specifically, this paper focuses on constrained MASes where agents
work \textit{cooperatively} to maximize the expected team-average return under
various constraints on expected team-average costs, and develops a
\textit{constrained cooperative MARL} framework, named DeCOM, for such MASes.
In particular, DeCOM decomposes the policy of each agent into two modules,
which empowers information sharing among agents to achieve better cooperation.
In addition, with such modularization, the training algorithm of DeCOM
separates the original constrained optimization into an unconstrained
optimization on reward and a constraints satisfaction problem on costs. DeCOM
then iteratively solves these problems in a computationally efficient manner,
which makes DeCOM highly scalable. We also provide theoretical guarantees on
the convergence of DeCOM's policy update algorithm. Finally, we validate the
effectiveness of DeCOM with various types of costs in both toy and large-scale
(with 500 agents) environments.
- Abstract(参考訳): 近年, マルチエージェント強化学習 (MARL) は, 様々な応用において顕著な性能を示した。
しかしながら、物理的制限、予算制限、その他多くの要因は、従来のMARLフレームワークでは扱えないマルチエージェントシステム(MAS)に \textit{constraints} を課す。
具体的には,期待されるチーム平均コストに対するさまざまな制約の下での期待チーム平均リターンを最大化するために,エージェントが \textit{cooperatively} で作業する制約付き仮面に注目し,そのような仮面に対して \textit{constrained cooperative marl} フレームワークである decom を開発した。
特に、DeCOMは各エージェントのポリシーを2つのモジュールに分解し、エージェント間の情報共有によりより良い協力を実現する。
さらに,このようなモジュール化により,DeCOMのトレーニングアルゴリズムは,本来の制約付き最適化を,報酬に対する制約なし最適化とコストに対する制約満足度問題に分離する。
その後、DeCOMはこれらの問題を計算的に効率的な方法で反復的に解決する。
また,DeCOMのポリシー更新アルゴリズムの収束に関する理論的保証も提供する。
最後に, 玩具と大規模(500エージェント)環境において, 各種コストでDeCOMの有効性を検証した。
関連論文リスト
- PARCO: Learning Parallel Autoregressive Policies for Efficient Multi-Agent Combinatorial Optimization [17.392822956504848]
本稿では,強化学習におけるマルチエージェント問題に対する高速サロゲート解法であるPARCOを紹介する。
優先度に基づく競合処理方式によって強化された,複数の決定を異なるエージェントで同時に復号化するための多重ポインタ機構を持つモデルを提案する。
論文 参考訳(メタデータ) (2024-09-05T17:49:18Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - Adaptive Value Decomposition with Greedy Marginal Contribution
Computation for Cooperative Multi-Agent Reinforcement Learning [48.41925886860991]
現実世界の協力はしばしばエージェント間の集中的な調整を必要とする。
単調なユーティリティの単調混合として値関数を学習する従来の方法は、非単調なリターンでタスクを解くことはできない。
非単調な問題に対処するための新しい明示的な信用割当手法を提案する。
論文 参考訳(メタデータ) (2023-02-14T07:23:59Z) - RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in
Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。
RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。
提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T03:39:27Z) - HAVEN: Hierarchical Cooperative Multi-Agent Reinforcement Learning with
Dual Coordination Mechanism [17.993973801986677]
多エージェント強化学習はしばしば、多数のエージェントによって引き起こされる指数関数的に大きな作用空間に悩まされる。
完全協調型マルチエージェント問題に対する階層的強化学習に基づく新しい値分解フレームワークHAVENを提案する。
論文 参考訳(メタデータ) (2021-10-14T10:43:47Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Decomposed Soft Actor-Critic Method for Cooperative Multi-Agent
Reinforcement Learning [10.64928897082273]
実験の結果,mSACは政策ベースアプローチのCOMAよりも有意に優れていた。
さらに、mSACは2c_vs_64zgやMMM2のような大きなアクションスペースタスクでかなり良い結果をもたらします。
論文 参考訳(メタデータ) (2021-04-14T07:02:40Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。