論文の概要: Is Centralized Training with Decentralized Execution Framework
Centralized Enough for MARL?
- arxiv url: http://arxiv.org/abs/2305.17352v1
- Date: Sat, 27 May 2023 03:15:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 20:03:22.354349
- Title: Is Centralized Training with Decentralized Execution Framework
Centralized Enough for MARL?
- Title(参考訳): 分散実行フレームワークによる集中型トレーニングはMARLにとって十分か?
- Authors: Yihe Zhou, Shunyu Liu, Yunpeng Qing, Kaixuan Chen, Tongya Zheng,
Yanhao Huang, Jie Song, Mingli Song
- Abstract要約: 分散実行によるトレーニングは、協調的マルチエージェント強化学習のための一般的なフレームワークである。
マルチエージェント強化学習のためのCADP(Advising and Decentralized Pruning)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 27.037348104661497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Centralized Training with Decentralized Execution (CTDE) has recently emerged
as a popular framework for cooperative Multi-Agent Reinforcement Learning
(MARL), where agents can use additional global state information to guide
training in a centralized way and make their own decisions only based on
decentralized local policies. Despite the encouraging results achieved, CTDE
makes an independence assumption on agent policies, which limits agents to
adopt global cooperative information from each other during centralized
training. Therefore, we argue that existing CTDE methods cannot fully utilize
global information for training, leading to an inefficient joint-policy
exploration and even suboptimal results. In this paper, we introduce a novel
Centralized Advising and Decentralized Pruning (CADP) framework for multi-agent
reinforcement learning, that not only enables an efficacious message exchange
among agents during training but also guarantees the independent policies for
execution. Firstly, CADP endows agents the explicit communication channel to
seek and take advices from different agents for more centralized training. To
further ensure the decentralized execution, we propose a smooth model pruning
mechanism to progressively constraint the agent communication into a closed one
without degradation in agent cooperation capability. Empirical evaluations on
StarCraft II micromanagement and Google Research Football benchmarks
demonstrate that the proposed framework achieves superior performance compared
with the state-of-the-art counterparts. Our code will be made publicly
available.
- Abstract(参考訳): 分散実行による集中的トレーニング(CTDE)は、エージェントが集中的な方法でトレーニングをガイドし、分散化されたローカルポリシーのみに基づいて独自の意思決定を行うために、MARL(Multi-Agent Reinforcement Learning)の人気のあるフレームワークとして最近登場した。
奨励的な成果にもかかわらず、CTDEはエージェントポリシーを独立に仮定し、エージェントは集中トレーニング中に互いにグローバルな協調情報を採用することを制限している。
したがって,既存のCTDE法は訓練にグローバル情報を完全に活用できないため,非効率な共同政治探索や準最適結果さえもたらさない。
本稿では,エージェント間の効果的なメッセージ交換を可能にするだけでなく,実行時の独立ポリシーも保証する,多エージェント強化学習のための新しいCADPフレームワークを提案する。
第一に、CADPはエージェントに対して、より集中的な訓練のために異なるエージェントからアドバイスを求め、受けられる明示的なコミュニケーションチャネルを提供する。
さらに分散化を確実にするため,エージェント協調能力の劣化を伴わずに,エージェント通信を閉じたものに段階的に制約するスムーズなモデルプルーニング機構を提案する。
StarCraft IIのマイクロマネジメントとGoogle Research Footballベンチマークに関する実証的な評価は、提案されたフレームワークが最先端のフレームワークよりも優れたパフォーマンスを実現していることを示している。
私たちのコードは公開されます。
関連論文リスト
- An Introduction to Centralized Training for Decentralized Execution in Cooperative Multi-Agent Reinforcement Learning [14.873907857806358]
このテキストは協調的なMARLにおけるCTDEの導入である。
これは、設定、基本的な概念、一般的な方法を説明することを目的としている。
論文 参考訳(メタデータ) (2024-09-04T19:54:40Z) - Fully Decentralized Cooperative Multi-Agent Reinforcement Learning: A
Survey [48.77342627610471]
協調型マルチエージェント強化学習は多くの実世界の協調作業を解決する強力なツールである。
完全に分散した環境で最適な共同政策に収束できるアルゴリズムを導出することは困難である。
論文 参考訳(メタデータ) (2024-01-10T05:07:42Z) - More Centralized Training, Still Decentralized Execution: Multi-Agent
Conditional Policy Factorization [21.10461189367695]
協調型マルチエージェント強化学習(MARL)では、値分解とアクター・クリティカルを組み合わせたエージェントがポリシーを学ぶことができる。
エージェントは、集中的な訓練であっても、互いに独立していると一般的に考えられている。
我々は、より集中的な訓練を施すが、それでも分散実行が可能なマルチエージェント条件付きポリシー因数分解(MACPF)を提案する。
論文 参考訳(メタデータ) (2022-09-26T13:29:22Z) - Scalable Multi-Agent Model-Based Reinforcement Learning [1.95804735329484]
我々は,モデルベース強化学習(MBRL)を用いて協調環境における集中型トレーニングをさらに活用するMAMBAという新しい手法を提案する。
エージェント間のコミュニケーションは、実行期間中に各エージェントのワールドモデルを維持するのに十分であり、一方、仮想ロールアウトはトレーニングに使用でき、環境と対話する必要がなくなる。
論文 参考訳(メタデータ) (2022-05-25T08:35:00Z) - Communication-Efficient Actor-Critic Methods for Homogeneous Markov
Games [6.589813623221242]
政策共有は、特定のタスクにおける効率的な学習には不可欠であるが、理論上の正当化は欠如している。
コンセンサスに基づく最初の分散型アクター批判手法を開発した。
また,訓練中の通信コストを削減するために,分散型アクター批判手法に基づく実用的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-02-18T20:35:00Z) - Monotonic Improvement Guarantees under Non-stationarity for
Decentralized PPO [66.5384483339413]
我々は,MARL(Multi-Agent Reinforcement Learning)における分散政策の最適化のための新しい単調改善保証を提案する。
本研究では,訓練中のエージェント数に基づいて,独立した比率を限定することにより,信頼領域の制約を原則的に効果的に実施可能であることを示す。
論文 参考訳(メタデータ) (2022-01-31T20:39:48Z) - Iterated Reasoning with Mutual Information in Cooperative and Byzantine
Decentralized Teaming [0.0]
我々は,政策グラディエント(PG)の下での最適化において,エージェントの方針がチームメイトの方針に準じることが,本質的に相互情報(MI)の下限を最大化することを示す。
我々の手法であるInfoPGは、創発的協調行動の学習におけるベースラインを上回り、分散協調型MARLタスクにおける最先端の課題を設定します。
論文 参考訳(メタデータ) (2022-01-20T22:54:32Z) - Cooperative Multi-Agent Actor-Critic for Privacy-Preserving Load
Scheduling in a Residential Microgrid [71.17179010567123]
本稿では,分散型アクターを分散批評家に教育する,プライバシ保護型マルチエージェントアクター批判フレームワークを提案する。
提案手法は,家庭のプライバシを保護しつつ,暗黙的にマルチエージェントの信用代入メカニズムを学習する。
論文 参考訳(メタデータ) (2021-10-06T14:05:26Z) - Is Independent Learning All You Need in the StarCraft Multi-Agent
Challenge? [100.48692829396778]
独立PPO (Independent PPO) は独立学習の一種であり、各エージェントはその局所値関数を単純に推定する。
IPPOの強い性能は、ある種の非定常性に対する堅牢性に起因する可能性がある。
論文 参考訳(メタデータ) (2020-11-18T20:29:59Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Monotonic Value Function Factorisation for Deep Multi-Agent
Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。
深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文 参考訳(メタデータ) (2020-03-19T16:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。