論文の概要: More Centralized Training, Still Decentralized Execution: Multi-Agent
Conditional Policy Factorization
- arxiv url: http://arxiv.org/abs/2209.12681v1
- Date: Mon, 26 Sep 2022 13:29:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 18:11:32.657709
- Title: More Centralized Training, Still Decentralized Execution: Multi-Agent
Conditional Policy Factorization
- Title(参考訳): より集中的な訓練と非集中的な実行:マルチエージェントな条件政策決定
- Authors: Jiangxing Wang, Deheng Ye, and Zongqing Lu
- Abstract要約: 協調型マルチエージェント強化学習(MARL)では、値分解とアクター・クリティカルを組み合わせたエージェントがポリシーを学ぶことができる。
エージェントは、集中的な訓練であっても、互いに独立していると一般的に考えられている。
我々は、より集中的な訓練を施すが、それでも分散実行が可能なマルチエージェント条件付きポリシー因数分解(MACPF)を提案する。
- 参考スコア(独自算出の注目度): 21.10461189367695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In cooperative multi-agent reinforcement learning (MARL), combining value
decomposition with actor-critic enables agents to learn stochastic policies,
which are more suitable for the partially observable environment. Given the
goal of learning local policies that enable decentralized execution, agents are
commonly assumed to be independent of each other, even in centralized training.
However, such an assumption may prohibit agents from learning the optimal joint
policy. To address this problem, we explicitly take the dependency among agents
into centralized training. Although this leads to the optimal joint policy, it
may not be factorized for decentralized execution. Nevertheless, we
theoretically show that from such a joint policy, we can always derive another
joint policy that achieves the same optimality but can be factorized for
decentralized execution. To this end, we propose multi-agent conditional policy
factorization (MACPF), which takes more centralized training but still enables
decentralized execution. We empirically verify MACPF in various cooperative
MARL tasks and demonstrate that MACPF achieves better performance or faster
convergence than baselines.
- Abstract(参考訳): 協調型マルチエージェント強化学習(MARL)では、値分解とアクター・クリティカルを組み合わせたエージェントは、部分的に観察可能な環境に適した確率的ポリシーを学習することができる。
分散実行を可能にするローカルポリシーを学ぶという目標を考えると、エージェントは集中的なトレーニングであっても互いに独立していると一般的に想定される。
しかし、このような仮定は、エージェントが最適な共同政策を学ぶことを妨げうる。
この問題に対処するために、エージェント間の依存関係を集中トレーニングに明示的に取り込む。
これは最適なジョイント政策につながるが、分散実行には因果化されない。
それにもかかわらず、理論的には、そのような共同政策から、我々は常に同じ最適性を達成するが分散実行のためにファクタリングできる別の共同政策を導出することができる。
そこで本研究では,より集中的な学習を取り入れながら,分散実行が可能なマルチエージェント条件付きポリシー因数分解(MACPF)を提案する。
我々は、様々な協調的MARLタスクにおけるMACPFを実証的に検証し、MACPFがベースラインよりも優れた性能または高速収束を達成することを示す。
関連論文リスト
- AgentMixer: Multi-Agent Correlated Policy Factorization [39.041191852287525]
エージェントがそれらのポリシーを関連付けるためのメカニズムを提供するために、テクストゥラティクスの修正を導入する。
本稿では,個別の可観測ポリシの非線形結合として,完全可観測ポリシを構成する新しいフレームワークであるAgentMixerを提案する。
AgentMixerは$epsilon$-approximate Correlated Equilibriumに収束することを示す。
論文 参考訳(メタデータ) (2024-01-16T15:32:41Z) - Is Centralized Training with Decentralized Execution Framework
Centralized Enough for MARL? [27.037348104661497]
分散実行によるトレーニングは、協調的マルチエージェント強化学習のための一般的なフレームワークである。
マルチエージェント強化学習のためのCADP(Advising and Decentralized Pruning)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-27T03:15:24Z) - Decentralized Policy Optimization [21.59254848913971]
単調な改善と収束を保証する分散型アクター批判アルゴリズムであるテキスト分散ポリシー最適化(DPO)を提案する。
実験的に、DPOとIPPOを協調的な多エージェントタスクで比較し、離散的かつ連続的な行動空間、完全かつ部分的に観察可能な環境を網羅した。
論文 参考訳(メタデータ) (2022-11-06T05:38:23Z) - Communication-Efficient Actor-Critic Methods for Homogeneous Markov
Games [6.589813623221242]
政策共有は、特定のタスクにおける効率的な学習には不可欠であるが、理論上の正当化は欠如している。
コンセンサスに基づく最初の分散型アクター批判手法を開発した。
また,訓練中の通信コストを削減するために,分散型アクター批判手法に基づく実用的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-02-18T20:35:00Z) - Monotonic Improvement Guarantees under Non-stationarity for
Decentralized PPO [66.5384483339413]
我々は,MARL(Multi-Agent Reinforcement Learning)における分散政策の最適化のための新しい単調改善保証を提案する。
本研究では,訓練中のエージェント数に基づいて,独立した比率を限定することにより,信頼領域の制約を原則的に効果的に実施可能であることを示す。
論文 参考訳(メタデータ) (2022-01-31T20:39:48Z) - Dealing with Non-Stationarity in Multi-Agent Reinforcement Learning via
Trust Region Decomposition [52.06086375833474]
非定常性は多エージェント強化学習における厄介な問題である。
ポリシーシーケンスの定常性を明示的にモデル化するための$delta$-stationarity測定を導入する。
共同政策の分岐を推定するために,メッセージパッシングに基づく信頼領域分解ネットワークを提案する。
論文 参考訳(メタデータ) (2021-02-21T14:46:50Z) - Is Independent Learning All You Need in the StarCraft Multi-Agent
Challenge? [100.48692829396778]
独立PPO (Independent PPO) は独立学習の一種であり、各エージェントはその局所値関数を単純に推定する。
IPPOの強い性能は、ある種の非定常性に対する堅牢性に起因する可能性がある。
論文 参考訳(メタデータ) (2020-11-18T20:29:59Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Monotonic Value Function Factorisation for Deep Multi-Agent
Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。
深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文 参考訳(メタデータ) (2020-03-19T16:51:51Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。