論文の概要: AgentMixer: Multi-Agent Correlated Policy Factorization
- arxiv url: http://arxiv.org/abs/2401.08728v2
- Date: Wed, 11 Dec 2024 16:06:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 13:58:48.334660
- Title: AgentMixer: Multi-Agent Correlated Policy Factorization
- Title(参考訳): AgentMixer: マルチエージェント関連政策因子化
- Authors: Zhiyuan Li, Wenshuai Zhao, Lijun Wu, Joni Pajarinen,
- Abstract要約: AgentMixerは、個々の部分的に監視可能なポリシーを、非線形に完全に監視可能な共同ポリシーに結合する。
AgentMixerは、Multi-Agent MuJoCo、SMAC-v2、Matrix Game、Predator-Preyベンチマークにおける最先端のメソッドより優れているか、あるいは一致している。
- 参考スコア(独自算出の注目度): 35.73799473896975
- License:
- Abstract: In multi-agent reinforcement learning, centralized training with decentralized execution (CTDE) methods typically assume that agents make decisions based on their local observations independently, which may not lead to a correlated joint policy with coordination. Coordination can be explicitly encouraged during training and individual policies can be trained to imitate the correlated joint policy. However, this may lead to an \textit{asymmetric learning failure} due to the observation mismatch between the joint and individual policies. Inspired by the concept of correlated equilibrium, we introduce a \textit{strategy modification} called AgentMixer that allows agents to correlate their policies. AgentMixer combines individual partially observable policies into a joint fully observable policy non-linearly. To enable decentralized execution, we introduce \textit{Individual-Global-Consistency} to guarantee mode consistency during joint training of the centralized and decentralized policies and prove that AgentMixer converges to an $\epsilon$-approximate Correlated Equilibrium. In the Multi-Agent MuJoCo, SMAC-v2, Matrix Game, and Predator-Prey benchmarks, AgentMixer outperforms or matches state-of-the-art methods.
- Abstract(参考訳): マルチエージェント強化学習では、分散実行(CTDE)手法による集中的な訓練は、エージェントが局所的な観察に基づいて独立して決定を下すことが一般的であり、協調と相関した共同政策を導出しない可能性がある。
コーディネーションはトレーニング中に明示的に奨励することができ、関連する共同政策を模倣するために個別のポリシーを訓練することができる。
しかし、これは共同政策と個別政策の観察ミスマッチによる「textit{asymmetric learning failure」につながる可能性がある。
相関均衡の概念にインスパイアされたエージェントミクサー(AgentMixer)と呼ばれる \textit{strategy modified} を導入し、エージェントがそれらのポリシーを相関させることができる。
AgentMixerは、個々の部分的に監視可能なポリシーを、非線形に完全に監視可能な共同ポリシーに結合する。
分散実行を可能にするために,集中型および分散型ポリシの共同トレーニングにおいてモード整合性を保証するために,‘textit{Individual-Global-Consistency’を導入し,AgentMixerが$\epsilon$-approximate Correlated Equilibriumに収束することを証明する。
Multi-Agent MuJoCo、SMAC-v2、Matrix Game、Predator-Preyのベンチマークでは、AgentMixerは最先端のメソッドよりも優れ、あるいはマッチする。
関連論文リスト
- CoMIX: A Multi-agent Reinforcement Learning Training Architecture for Efficient Decentralized Coordination and Independent Decision-Making [2.4555276449137042]
ロバストコーディネートスキルにより、エージェントは共有環境で、共通の目標に向けて、そして理想的には、お互いの進歩を妨げることなく、結合的に操作することができる。
本稿では,分散エージェントのための新しいトレーニングフレームワークであるCoordinated QMIXについて述べる。
論文 参考訳(メタデータ) (2023-08-21T13:45:44Z) - Inducing Stackelberg Equilibrium through Spatio-Temporal Sequential
Decision-Making in Multi-Agent Reinforcement Learning [17.101534531286298]
我々は、すべてのエージェントが共有する条件付きハイパーネットワークに基づいて、ナッシュレベルのポリシーモデルを構築する。
このアプローチは対称的実行を伴う非対称なトレーニングを可能にし、各エージェントは、上位エージェントによる決定に最適な条件で応答する。
実験により,本手法は繰り返し行列ゲームシナリオにおいて,SEポリシーに効果的に収束することを示した。
論文 参考訳(メタデータ) (2023-04-20T14:47:54Z) - More Centralized Training, Still Decentralized Execution: Multi-Agent
Conditional Policy Factorization [21.10461189367695]
協調型マルチエージェント強化学習(MARL)では、値分解とアクター・クリティカルを組み合わせたエージェントがポリシーを学ぶことができる。
エージェントは、集中的な訓練であっても、互いに独立していると一般的に考えられている。
我々は、より集中的な訓練を施すが、それでも分散実行が可能なマルチエージェント条件付きポリシー因数分解(MACPF)を提案する。
論文 参考訳(メタデータ) (2022-09-26T13:29:22Z) - Multi-Agent MDP Homomorphic Networks [100.74260120972863]
協調型マルチエージェントシステムでは、エージェントの異なる構成とそれらの局所的な観察の間に複雑な対称性が生じる。
単エージェント強化学習における既存の対称性の研究は、完全に集中した環境にのみ一般化できる。
本稿では,ローカル情報のみを用いた分散実行が可能なネットワークのクラスであるマルチエージェントMDPホモモルフィックネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-09T07:46:25Z) - Dealing with Non-Stationarity in Multi-Agent Reinforcement Learning via
Trust Region Decomposition [52.06086375833474]
非定常性は多エージェント強化学習における厄介な問題である。
ポリシーシーケンスの定常性を明示的にモデル化するための$delta$-stationarity測定を導入する。
共同政策の分岐を推定するために,メッセージパッシングに基づく信頼領域分解ネットワークを提案する。
論文 参考訳(メタデータ) (2021-02-21T14:46:50Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Monotonic Value Function Factorisation for Deep Multi-Agent
Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。
深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文 参考訳(メタデータ) (2020-03-19T16:51:51Z) - Multi-Agent Interactions Modeling with Correlated Policies [53.38338964628494]
本稿では,マルチエージェントインタラクションモデリング問題をマルチエージェント模倣学習フレームワークに実装する。
相関ポリシー(CoDAIL)を用いた分散型適応模倣学習アルゴリズムの開発
様々な実験により、CoDAILはデモレーターに近い複雑な相互作用をより良く再生できることが示されている。
論文 参考訳(メタデータ) (2020-01-04T17:31:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。