Fugu-MT 論文翻訳(概要): Is Independent Learning All You Need in the StarCraft Multi-Agent Challenge?

論文の概要: Is Independent Learning All You Need in the StarCraft Multi-Agent Challenge?

arxiv url: http://arxiv.org/abs/2011.09533v1
Date: Wed, 18 Nov 2020 20:29:59 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-24 04:13:48.755609
Title: Is Independent Learning All You Need in the StarCraft Multi-Agent Challenge?
Title（参考訳）: 独立した学習は、starcraftのマルチエージェントチャレンジで必要か?
Authors: Christian Schroeder de Witt, Tarun Gupta, Denys Makoviichuk, Viktor Makoviychuk, Philip H.S. Torr, Mingfei Sun, Shimon Whiteson
Abstract要約: 独立PPO (Independent PPO) は独立学習の一種であり、各エージェントはその局所値関数を単純に推定する。 IPPOの強い性能は、ある種の非定常性に対する堅牢性に起因する可能性がある。
参考スコア（独自算出の注目度）: 100.48692829396778
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Most recently developed approaches to cooperative multi-agent reinforcement learning in the \emph{centralized training with decentralized execution} setting involve estimating a centralized, joint value function. In this paper, we demonstrate that, despite its various theoretical shortcomings, Independent PPO (IPPO), a form of independent learning in which each agent simply estimates its local value function, can perform just as well as or better than state-of-the-art joint learning approaches on popular multi-agent benchmark suite SMAC with little hyperparameter tuning. We also compare IPPO to several variants; the results suggest that IPPO's strong performance may be due to its robustness to some forms of environment non-stationarity.
Abstract（参考訳）: 近年のemph{centralized training with decentralized execution}セッティングにおける協調型マルチエージェント強化学習へのアプローチは、集中型結合値関数を推定する。本稿では,各エージェントが局所値関数を単純に推定する独立学習形式である独立学習(IPPO)が,理論上の欠点があるにもかかわらず,従来のマルチエージェントベンチマークスイートであるSMACにおいて,ハイパーパラメータチューニングの少ない,最先端のジョイントラーニングアプローチと同等以上の性能を発揮することを示す。我々はIPPOをいくつかの変種と比較した。その結果、IPPOの強い性能は、ある種の環境非定常性に対する堅牢性に起因する可能性がある。

関連論文リスト

From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
MADiffは拡散型マルチエージェント学習フレームワークである。分散ポリシと集中型コントローラの両方として機能する。実験の結果,MADiffは様々なマルチエージェント学習タスクにおいて,ベースラインアルゴリズムよりも優れていた。
論文参考訳（メタデータ） (2023-05-27T02:14:09Z)
Decentralized Policy Optimization [21.59254848913971]
単調な改善と収束を保証する分散型アクター批判アルゴリズムであるテキスト分散ポリシー最適化(DPO)を提案する。実験的に、DPOとIPPOを協調的な多エージェントタスクで比較し、離散的かつ連続的な行動空間、完全かつ部分的に観察可能な環境を網羅した。
論文参考訳（メタデータ） (2022-11-06T05:38:23Z)
Taming Multi-Agent Reinforcement Learning with Estimator Variance Reduction [12.94372063457462]
分散実行(CT-DE)による集中トレーニングは、多くの主要なマルチエージェント強化学習(MARL)アルゴリズムの基礎となっている。特定の状態における共同行動の単一のサンプルから学ぶことに依存しているため、これは重大な欠点に悩まされる。本稿では,アクター・クリティカルなMARL法に対応する拡張ツールを提案する。
論文参考訳（メタデータ） (2022-09-02T13:44:00Z)
Scalable Multi-Agent Model-Based Reinforcement Learning [1.95804735329484]
我々は,モデルベース強化学習(MBRL)を用いて協調環境における集中型トレーニングをさらに活用するMAMBAという新しい手法を提案する。エージェント間のコミュニケーションは、実行期間中に各エージェントのワールドモデルを維持するのに十分であり、一方、仮想ロールアウトはトレーニングに使用でき、環境と対話する必要がなくなる。
論文参考訳（メタデータ） (2022-05-25T08:35:00Z)
The Surprising Effectiveness of MAPPO in Cooperative, Multi-Agent Games [67.47961797770249]
マルチエージェントPPO(MAPPO)は、集中型値関数を採用するマルチエージェントPPOバリアントである。 MAPPOは,3つの一般的なマルチエージェントテストベッドにおいて,最先端技術に匹敵する性能を実現していることを示す。
論文参考訳（メタデータ） (2021-03-02T18:59:56Z)
F2A2: Flexible Fully-decentralized Approximate Actor-critic for Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文参考訳（メタデータ） (2020-04-17T14:56:29Z)
Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文参考訳（メタデータ） (2020-03-19T16:51:51Z)
FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文参考訳（メタデータ） (2020-03-14T21:29:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。