Fugu-MT 論文翻訳(概要): AgentMixer: Multi-Agent Correlated Policy Factorization

論文の概要: AgentMixer: Multi-Agent Correlated Policy Factorization

arxiv url: http://arxiv.org/abs/2401.08728v1
Date: Tue, 16 Jan 2024 15:32:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-18 18:14:47.159026
Title: AgentMixer: Multi-Agent Correlated Policy Factorization
Title（参考訳）: AgentMixer: マルチエージェント関連政策因子化
Authors: Zhiyuan Li, Wenshuai Zhao, Lijun Wu, Joni Pajarinen
Abstract要約: エージェントがそれらのポリシーを関連付けるためのメカニズムを提供するために、テクストゥラティクスの修正を導入する。本稿では,個別の可観測ポリシの非線形結合として,完全可観測ポリシを構成する新しいフレームワークであるAgentMixerを提案する。 AgentMixerは$epsilon$-approximate Correlated Equilibriumに収束することを示す。
参考スコア（独自算出の注目度）: 39.041191852287525
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Centralized training with decentralized execution (CTDE) is widely employed to stabilize partially observable multi-agent reinforcement learning (MARL) by utilizing a centralized value function during training. However, existing methods typically assume that agents make decisions based on their local observations independently, which may not lead to a correlated joint policy with sufficient coordination. Inspired by the concept of correlated equilibrium, we propose to introduce a \textit{strategy modification} to provide a mechanism for agents to correlate their policies. Specifically, we present a novel framework, AgentMixer, which constructs the joint fully observable policy as a non-linear combination of individual partially observable policies. To enable decentralized execution, one can derive individual policies by imitating the joint policy. Unfortunately, such imitation learning can lead to \textit{asymmetric learning failure} caused by the mismatch between joint policy and individual policy information. To mitigate this issue, we jointly train the joint policy and individual policies and introduce \textit{Individual-Global-Consistency} to guarantee mode consistency between the centralized and decentralized policies. We then theoretically prove that AgentMixer converges to an $\epsilon$-approximate Correlated Equilibrium. The strong experimental performance on three MARL benchmarks demonstrates the effectiveness of our method.
Abstract（参考訳）: 集中型集中訓練(CTDE)は、トレーニング中に集中値関数を利用することで、部分的に観察可能なマルチエージェント強化学習(MARL)を安定化するために広く用いられている。しかし、既存の手法では、エージェントはローカルな観察に基づいて独立に意思決定を行うと仮定しており、十分な調整を伴う相関した共同政策に繋がることはない。相関均衡の概念に触発されて、エージェントがポリシーを関連付けるメカニズムを提供するための \textit{strategy modified} を導入することを提案する。具体的には,個々の部分観測可能なポリシの非線形結合として完全観測可能ポリシを構成する新しいフレームワークであるAgentMixerを提案する。分散実行を可能にするために、共同ポリシーを模倣して個別のポリシーを導出することができる。残念ながら、このような模倣学習は、共同政策と個別の政策情報とのミスマッチに起因する「textit{asymmetric learning failure」につながる可能性がある。この問題を軽減するため,我々は統合政策と個別政策を共同で訓練し,中央集権政策と分散政策のモード一貫性を保証するための \textit{individual-global-consistency} を導入する。次に、AgentMixerが$\epsilon$-approximate Correlated Equilibriumに収束することを理論的に証明する。 3つのmarlベンチマークにおける強力な実験性能は,本手法の有効性を示している。

関連論文リスト

CoMIX: A Multi-agent Reinforcement Learning Training Architecture for Efficient Decentralized Coordination and Independent Decision-Making [2.4555276449137042]
ロバストコーディネートスキルにより、エージェントは共有環境で、共通の目標に向けて、そして理想的には、お互いの進歩を妨げることなく、結合的に操作することができる。本稿では,分散エージェントのための新しいトレーニングフレームワークであるCoordinated QMIXについて述べる。
論文参考訳（メタデータ） (2023-08-21T13:45:44Z)
Context-Aware Bayesian Network Actor-Critic Methods for Cooperative Multi-Agent Reinforcement Learning [7.784991832712813]
本稿では, エージェントの行動選択の相関関係を, 共同政策に導入するベイズネットワークを提案する。本研究では,コンテキスト認識型ベイズ型ネットワークポリシを学習するための実用的なアルゴリズムを開発した。 MARLベンチマークの実証結果は,我々のアプローチの利点を示している。
論文参考訳（メタデータ） (2023-06-02T21:22:27Z)
Inducing Stackelberg Equilibrium through Spatio-Temporal Sequential Decision-Making in Multi-Agent Reinforcement Learning [17.101534531286298]
我々は、すべてのエージェントが共有する条件付きハイパーネットワークに基づいて、ナッシュレベルのポリシーモデルを構築する。このアプローチは対称的実行を伴う非対称なトレーニングを可能にし、各エージェントは、上位エージェントによる決定に最適な条件で応答する。実験により,本手法は繰り返し行列ゲームシナリオにおいて,SEポリシーに効果的に収束することを示した。
論文参考訳（メタデータ） (2023-04-20T14:47:54Z)
Decentralized Policy Optimization [21.59254848913971]
単調な改善と収束を保証する分散型アクター批判アルゴリズムであるテキスト分散ポリシー最適化(DPO)を提案する。実験的に、DPOとIPPOを協調的な多エージェントタスクで比較し、離散的かつ連続的な行動空間、完全かつ部分的に観察可能な環境を網羅した。
論文参考訳（メタデータ） (2022-11-06T05:38:23Z)
More Centralized Training, Still Decentralized Execution: Multi-Agent Conditional Policy Factorization [21.10461189367695]
協調型マルチエージェント強化学習(MARL)では、値分解とアクター・クリティカルを組み合わせたエージェントがポリシーを学ぶことができる。エージェントは、集中的な訓練であっても、互いに独立していると一般的に考えられている。我々は、より集中的な訓練を施すが、それでも分散実行が可能なマルチエージェント条件付きポリシー因数分解(MACPF)を提案する。
論文参考訳（メタデータ） (2022-09-26T13:29:22Z)
Monotonic Improvement Guarantees under Non-stationarity for Decentralized PPO [66.5384483339413]
我々は,MARL(Multi-Agent Reinforcement Learning)における分散政策の最適化のための新しい単調改善保証を提案する。本研究では,訓練中のエージェント数に基づいて,独立した比率を限定することにより,信頼領域の制約を原則的に効果的に実施可能であることを示す。
論文参考訳（メタデータ） (2022-01-31T20:39:48Z)
Multi-Agent MDP Homomorphic Networks [100.74260120972863]
協調型マルチエージェントシステムでは、エージェントの異なる構成とそれらの局所的な観察の間に複雑な対称性が生じる。単エージェント強化学習における既存の対称性の研究は、完全に集中した環境にのみ一般化できる。本稿では,ローカル情報のみを用いた分散実行が可能なネットワークのクラスであるマルチエージェントMDPホモモルフィックネットワークを提案する。
論文参考訳（メタデータ） (2021-10-09T07:46:25Z)
Dealing with Non-Stationarity in Multi-Agent Reinforcement Learning via Trust Region Decomposition [52.06086375833474]
非定常性は多エージェント強化学習における厄介な問題である。ポリシーシーケンスの定常性を明示的にモデル化するための$delta$-stationarity測定を導入する。共同政策の分岐を推定するために,メッセージパッシングに基づく信頼領域分解ネットワークを提案する。
論文参考訳（メタデータ） (2021-02-21T14:46:50Z)
Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC) 半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文参考訳（メタデータ） (2020-07-13T02:52:18Z)
Calibration of Shared Equilibria in General Sum Partially Observable Markov Games [15.572157454411533]
我々は、異なるタイプのエージェントが単一のポリシーネットワークを共有する、一般的な可観測マルコフゲームを考える。本稿は,そのようなエージェントが到達した平衡を形式的に理解すること,および,そのような平衡の創発的な現象を現実のターゲットに合わせることを目的としている。
論文参考訳（メタデータ） (2020-06-23T15:14:20Z)
F2A2: Flexible Fully-decentralized Approximate Actor-critic for Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文参考訳（メタデータ） (2020-04-17T14:56:29Z)
Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文参考訳（メタデータ） (2020-03-19T16:51:51Z)
Multi-Agent Interactions Modeling with Correlated Policies [53.38338964628494]
本稿では,マルチエージェントインタラクションモデリング問題をマルチエージェント模倣学習フレームワークに実装する。相関ポリシー(CoDAIL)を用いた分散型適応模倣学習アルゴリズムの開発様々な実験により、CoDAILはデモレーターに近い複雑な相互作用をより良く再生できることが示されている。
論文参考訳（メタデータ） (2020-01-04T17:31:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。