論文の概要: Scalable Neighborhood-Based Multi-Agent Actor-Critic
- arxiv url: http://arxiv.org/abs/2604.18190v1
- Date: Mon, 20 Apr 2026 12:45:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.867444
- Title: Scalable Neighborhood-Based Multi-Agent Actor-Critic
- Title(参考訳): スケーラブルな隣り合わせ型マルチエージェントアクタ臨界
- Authors: Tim Goppelsroeder, Rasmus Jensen,
- Abstract要約: 我々は、マルチエージェントのDeep Deterministic Policy Gradient(MADDPG)の拡張であるMADDPG-Kを提案する。
MADDPG-Kは、選択されたメートル法の下で最も近い$$$のエージェントに対して、各エージェントの批判を緩和する。
マルチパーティクル環境スイートを用いて, 協調的, 敵対的環境にまたがる手法を実証的に検証した。
- 参考スコア(独自算出の注目度): 3.007949058551534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose MADDPG-K, a scalable extension to Multi-Agent Deep Deterministic Policy Gradient (MADDPG) that addresses the computational limitations of centralized critic approaches. Centralized critics, which condition on the observations and actions of all agents, have demonstrated significant performance gains in cooperative and competitive multi-agent settings. However, their critic networks grow linearly in input size with the number of agents, making them increasingly expensive to train at scale. MADDPG-K mitigates this by restricting each agent's critic to the $k$ closest agents under a chosen metric which in our case is Euclidean distance. This ensures a constant-size critic input regardless of the total agent count. We analyze the complexity of this approach, showing that the quadratic cost it retains arises from cheap scalar distance computations rather than the expensive neural network matrix multiplications that bottleneck standard MADDPG. We validate our method empirically across cooperative and adversarial environments from the Multi-Particle Environment suite, demonstrating competitive or superior performance compared to MADDPG, faster convergence in cooperative settings, and better runtime scaling as the number of agents grows. Our code is available at https://github.com/TimGop/MADDPG-K .
- Abstract(参考訳): 我々は,集中的批判手法の計算限界に対処するマルチエージェント・ディープ決定性ポリシー勾配(MADDPG)のスケーラブルな拡張であるMADDPG-Kを提案する。
中央集権的批評家は、全てのエージェントの観察と行動に条件を定めており、協調的かつ競争的なマルチエージェント設定において、顕著なパフォーマンス向上を示している。
しかし、彼らの批評家ネットワークはエージェントの数とともに入力サイズで線形に成長し、大規模にトレーニングするコストがますます高くなる。
MADDPG-Kは、各エージェントの批判を、選択された距離の下の$k$最も近いエージェントに制限することで、これを緩和する。
これにより、総エージェント数にかかわらず、一定の大きさの批評家入力が保証される。
このアプローチの複雑さを分析し,MADDPGをボトルネックとする高価なニューラルネットワーク行列の乗算よりも,安価なスカラー距離計算による二次コストが生じることを示した。
本手法は,Multi-Particle Environment スイートの協調環境および敵対環境において実証的に検証し,MADDPG と比較して競争性や優れた性能,協調環境の収束の高速化,エージェント数の増加に伴う実行時スケーリングの向上を実証した。
私たちのコードはhttps://github.com/TimGop/MADDPG-K で利用可能です。
関連論文リスト
- Agent Q-Mix: Selecting the Right Action for LLM Multi-Agent Systems through Reinforcement Learning [68.85408801740228]
協調型マルチエージェント強化学習問題としてトポロジ選択を再構成する強化学習フレームワークである textbfAgent Q-Mix を提案する。
提案手法は,Qmix値分解を用いて分散化された通信決定を学習し,各エージェントがラウンドワイド通信グラフを共同生成する一連の通信行動から選択する。
エージェントQ-Mixは,エージェント故障に対して優れたトークン効率とロバスト性を示しながら,既存手法と比較して高い平均精度を達成する。
論文 参考訳(メタデータ) (2026-04-01T00:38:24Z) - Conservative DDPG -- Pessimistic RL without Ensemble [48.61228614796803]
DDPGは過大評価バイアス問題によって妨げられている。
このバイアスに対する伝統的な解決策は、アンサンブルに基づく方法を含んでいる。
本稿では,Q$-targetと行動クローン(BC)損失ペナルティを組み込んだ簡単なソリューションを提案する。
論文 参考訳(メタデータ) (2024-03-08T23:59:38Z) - Revisiting the Gumbel-Softmax in MADDPG [11.292086312664383]
DDPGは、状態-作用値関数の勾配が存在する連続的な作用空間のために設計されたアルゴリズムである。
このアルゴリズムが離散的な作用空間で機能するためには、離散的な勾配推定を行う必要がある。
本稿では,複数の代替手段を探索し,離散グリッドワールドシナリオのためのMADDPGに統合する。
論文 参考訳(メタデータ) (2023-02-23T06:13:51Z) - Byzantine-Robust Online and Offline Distributed Reinforcement Learning [60.970950468309056]
本稿では,複数のエージェントが環境を探索し,その経験を中央サーバを通じて伝達する分散強化学習環境について考察する。
エージェントの$alpha$-fractionは敵対的であり、任意の偽情報を報告することができる。
我々は、これらの対立エージェントの存在下で、マルコフ決定プロセスの根底にある準最適政策を特定することを模索する。
論文 参考訳(メタデータ) (2022-06-01T00:44:53Z) - Asymptotic Convergence of Deep Multi-Agent Actor-Critic Algorithms [0.6961253535504979]
我々は,多エージェントDeep Deterministic Policy Gradient (DDPG)アルゴリズムの収束を保証する十分な条件を提案する。
これは、連続的なアクション空間を扱うためのDeep Reinforcement Learning(DeepRL)の最も人気のあるパラダイムの1つである。
論文 参考訳(メタデータ) (2022-01-03T10:33:52Z) - Off-Policy Multi-Agent Decomposed Policy Gradients [30.389041305278045]
我々は、MAPGアルゴリズムの性能を阻害する原因を調査し、マルチエージェント分解ポリシー勾配法(DOP)を提案する。
DOPは効率的な非政治学習をサポートし、中央集権型ミスマッチと信用割当の問題に対処する。
さらに、StarCraft IIマイクロマネジメントベンチマークとマルチエージェント粒子環境に関する実証的な評価は、DOPが最先端の値ベースおよびポリシーベースのマルチエージェント強化学習アルゴリズムよりも大幅に優れていることを示している。
論文 参考訳(メタデータ) (2020-07-24T02:21:55Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z) - Counterfactual Multi-Agent Policy Gradients [47.45255170608965]
本稿では,COMAポリシーグラデーションと呼ばれる新しいマルチエージェントアクター批判手法を提案する。
COMAは中央集権的な批評家を用いてQ-関数を推定し、エージェントのポリシーを最適化する。
我々は,StarCraftユニットのマイクロマネジメントにおけるテストベッドにおけるCOMAの評価を行った。
論文 参考訳(メタデータ) (2017-05-24T18:52:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。