論文の概要: AgentMixer: Multi-Agent Correlated Policy Factorization
- arxiv url: http://arxiv.org/abs/2401.08728v1
- Date: Tue, 16 Jan 2024 15:32:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 18:14:47.159026
- Title: AgentMixer: Multi-Agent Correlated Policy Factorization
- Title(参考訳): AgentMixer: マルチエージェント関連政策因子化
- Authors: Zhiyuan Li, Wenshuai Zhao, Lijun Wu, Joni Pajarinen
- Abstract要約: エージェントがそれらのポリシーを関連付けるためのメカニズムを提供するために、テクストゥラティクスの修正を導入する。
本稿では,個別の可観測ポリシの非線形結合として,完全可観測ポリシを構成する新しいフレームワークであるAgentMixerを提案する。
AgentMixerは$epsilon$-approximate Correlated Equilibriumに収束することを示す。
- 参考スコア(独自算出の注目度): 39.041191852287525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Centralized training with decentralized execution (CTDE) is widely employed
to stabilize partially observable multi-agent reinforcement learning (MARL) by
utilizing a centralized value function during training. However, existing
methods typically assume that agents make decisions based on their local
observations independently, which may not lead to a correlated joint policy
with sufficient coordination. Inspired by the concept of correlated
equilibrium, we propose to introduce a \textit{strategy modification} to
provide a mechanism for agents to correlate their policies. Specifically, we
present a novel framework, AgentMixer, which constructs the joint fully
observable policy as a non-linear combination of individual partially
observable policies. To enable decentralized execution, one can derive
individual policies by imitating the joint policy. Unfortunately, such
imitation learning can lead to \textit{asymmetric learning failure} caused by
the mismatch between joint policy and individual policy information. To
mitigate this issue, we jointly train the joint policy and individual policies
and introduce \textit{Individual-Global-Consistency} to guarantee mode
consistency between the centralized and decentralized policies. We then
theoretically prove that AgentMixer converges to an $\epsilon$-approximate
Correlated Equilibrium. The strong experimental performance on three MARL
benchmarks demonstrates the effectiveness of our method.
- Abstract(参考訳): 集中型集中訓練(CTDE)は、トレーニング中に集中値関数を利用することで、部分的に観察可能なマルチエージェント強化学習(MARL)を安定化するために広く用いられている。
しかし、既存の手法では、エージェントはローカルな観察に基づいて独立に意思決定を行うと仮定しており、十分な調整を伴う相関した共同政策に繋がることはない。
相関均衡の概念に触発されて、エージェントがポリシーを関連付けるメカニズムを提供するための \textit{strategy modified} を導入することを提案する。
具体的には,個々の部分観測可能なポリシの非線形結合として完全観測可能ポリシを構成する新しいフレームワークであるAgentMixerを提案する。
分散実行を可能にするために、共同ポリシーを模倣して個別のポリシーを導出することができる。
残念ながら、このような模倣学習は、共同政策と個別の政策情報とのミスマッチに起因する「textit{asymmetric learning failure」につながる可能性がある。
この問題を軽減するため,我々は統合政策と個別政策を共同で訓練し,中央集権政策と分散政策のモード一貫性を保証するための \textit{individual-global-consistency} を導入する。
次に、AgentMixerが$\epsilon$-approximate Correlated Equilibriumに収束することを理論的に証明する。
3つのmarlベンチマークにおける強力な実験性能は,本手法の有効性を示している。
関連論文リスト
- CoMIX: A Multi-agent Reinforcement Learning Training Architecture for Efficient Decentralized Coordination and Independent Decision-Making [2.4555276449137042]
ロバストコーディネートスキルにより、エージェントは共有環境で、共通の目標に向けて、そして理想的には、お互いの進歩を妨げることなく、結合的に操作することができる。
本稿では,分散エージェントのための新しいトレーニングフレームワークであるCoordinated QMIXについて述べる。
論文 参考訳(メタデータ) (2023-08-21T13:45:44Z) - Inducing Stackelberg Equilibrium through Spatio-Temporal Sequential
Decision-Making in Multi-Agent Reinforcement Learning [17.101534531286298]
我々は、すべてのエージェントが共有する条件付きハイパーネットワークに基づいて、ナッシュレベルのポリシーモデルを構築する。
このアプローチは対称的実行を伴う非対称なトレーニングを可能にし、各エージェントは、上位エージェントによる決定に最適な条件で応答する。
実験により,本手法は繰り返し行列ゲームシナリオにおいて,SEポリシーに効果的に収束することを示した。
論文 参考訳(メタデータ) (2023-04-20T14:47:54Z) - More Centralized Training, Still Decentralized Execution: Multi-Agent
Conditional Policy Factorization [21.10461189367695]
協調型マルチエージェント強化学習(MARL)では、値分解とアクター・クリティカルを組み合わせたエージェントがポリシーを学ぶことができる。
エージェントは、集中的な訓練であっても、互いに独立していると一般的に考えられている。
我々は、より集中的な訓練を施すが、それでも分散実行が可能なマルチエージェント条件付きポリシー因数分解(MACPF)を提案する。
論文 参考訳(メタデータ) (2022-09-26T13:29:22Z) - Multi-Agent MDP Homomorphic Networks [100.74260120972863]
協調型マルチエージェントシステムでは、エージェントの異なる構成とそれらの局所的な観察の間に複雑な対称性が生じる。
単エージェント強化学習における既存の対称性の研究は、完全に集中した環境にのみ一般化できる。
本稿では,ローカル情報のみを用いた分散実行が可能なネットワークのクラスであるマルチエージェントMDPホモモルフィックネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-09T07:46:25Z) - Dealing with Non-Stationarity in Multi-Agent Reinforcement Learning via
Trust Region Decomposition [52.06086375833474]
非定常性は多エージェント強化学習における厄介な問題である。
ポリシーシーケンスの定常性を明示的にモデル化するための$delta$-stationarity測定を導入する。
共同政策の分岐を推定するために,メッセージパッシングに基づく信頼領域分解ネットワークを提案する。
論文 参考訳(メタデータ) (2021-02-21T14:46:50Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Monotonic Value Function Factorisation for Deep Multi-Agent
Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。
深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文 参考訳(メタデータ) (2020-03-19T16:51:51Z) - Multi-Agent Interactions Modeling with Correlated Policies [53.38338964628494]
本稿では,マルチエージェントインタラクションモデリング問題をマルチエージェント模倣学習フレームワークに実装する。
相関ポリシー(CoDAIL)を用いた分散型適応模倣学習アルゴリズムの開発
様々な実験により、CoDAILはデモレーターに近い複雑な相互作用をより良く再生できることが示されている。
論文 参考訳(メタデータ) (2020-01-04T17:31:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。