論文の概要: Bridging MARL to SARL: An Order-Independent Multi-Agent Transformer via Latent Consensus
- arxiv url: http://arxiv.org/abs/2604.13472v1
- Date: Wed, 15 Apr 2026 04:52:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.386887
- Title: Bridging MARL to SARL: An Order-Independent Multi-Agent Transformer via Latent Consensus
- Title(参考訳): MARLをSARLにブリッジする:潜在コンセンサスによる順序非依存型マルチエージェント変換器
- Authors: Zijian Zhao, Jing Gao, Sen Li,
- Abstract要約: 本稿では,協調的なMARLを階層型単エージェント強化学習(SARL)にブリッジする中心的枠組みを提案する。
CMATは全てのエージェントを統一されたエンティティとして扱い、大きな共同観測空間を処理するためにTransformerエンコーダを使用する。
我々はStarCraft II、Multi-Agent MuJoCo、Google Research Footballのベンチマークタスクについて実験を行った。
- 参考スコア(独自算出の注目度): 10.628655514912417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cooperative multi-agent reinforcement learning (MARL) is widely used to address large joint observation and action spaces by decomposing a centralized control problem into multiple interacting agents. However, such decomposition often introduces additional challenges, including non-stationarity, unstable training, weak coordination, and limited theoretical guarantees. In this paper, we propose the Consensus Multi-Agent Transformer (CMAT), a centralized framework that bridges cooperative MARL to a hierarchical single-agent reinforcement learning (SARL) formulation. CMAT treats all agents as a unified entity and employs a Transformer encoder to process the large joint observation space. To handle the extensive joint action space, we introduce a hierarchical decision-making mechanism in which a Transformer decoder autoregressively generates a high-level consensus vector, simulating the process by which agents reach agreement on their strategies in latent space. Conditioned on this consensus, all agents generate their actions simultaneously, enabling order-independent joint decision making and avoiding the sensitivity to action-generation order in conventional Multi-Agent Transformers (MAT). This factorization allows the joint policy to be optimized using single-agent PPO while preserving expressive coordination through the latent consensus. To evaluate the proposed method, we conduct experiments on benchmark tasks from StarCraft II, Multi-Agent MuJoCo, and Google Research Football. The results show that CMAT achieves superior performance over recent centralized solutions, sequential MARL methods, and conventional MARL baselines. The code for this paper is available at:https://github.com/RS2002/CMAT .
- Abstract(参考訳): 協調型マルチエージェント強化学習(MARL)は、集中制御問題を複数の相互作用エージェントに分解することにより、大きな共同観測と行動空間に広く用いられる。
しかし、そのような分解は、非定常性、不安定な訓練、弱い調整、限られた理論的保証を含む追加の課題をもたらすことが多い。
本稿では,協調型MARLを階層型単エージェント強化学習(SARL)にブリッジする集中型フレームワークであるConsensus Multi-Agent Transformer(CMAT)を提案する。
CMATは全てのエージェントを統一されたエンティティとして扱い、大きな共同観測空間を処理するためにTransformerエンコーダを使用する。
本研究では,トランスフォーマーデコーダが高レベルのコンセンサスベクトルを自己回帰的に生成する階層的決定機構を導入し,エージェントが潜在空間における戦略に合意に達する過程をシミュレートする。
この合意に基づいて、全てのエージェントが同時に行動を生成し、従来のマルチエージェントトランスフォーマー(MAT)において、順序に依存しない共同決定を可能にし、アクション生成順序に対する感受性を回避する。
この因子化により、単一エージェントのPPOを使用して結合ポリシーを最適化し、潜在コンセンサスを通じて表現的コーディネーションを維持することができる。
提案手法を評価するため,StarCraft II,Multi-Agent MuJoCo,Google Research Footballのベンチマークタスクについて実験を行った。
その結果, CMATは近年の集中型解, シーケンシャルなMARL法, 従来のMARLベースラインよりも優れた性能を示した。
この論文のコードは、https://github.com/RS2002/CMAT で公開されている。
関連論文リスト
- Adaptive Value Decomposition: Coordinating a Varying Number of Agents in Urban Systems [19.19146852846605]
Adaptive Value Decomposition (AVD)は、動的に変化するエージェントに適応する協調的なMARLフレームワークである。
トレーニング実行戦略は、エージェントが異なるタイミングで行動するときの非同期な意思決定に対応するように設計されている。
論文 参考訳(メタデータ) (2026-02-10T03:41:14Z) - MARTI-MARS$^2$: Scaling Multi-Agent Self-Search via Reinforcement Learning for Code Generation [64.2621682259008]
セルフサーチスケーリングによるマルチエージェント強化トレーニングと推論フレームワーク(MARTI-MARS2)
本稿では,MARTI-MARS2を用いたマルチエージェント強化学習・推論フレームワークを提案する。
我々は、MARTI-MARS2が77.7%を獲得し、GPT-5.1のような強力なベースラインを、挑戦的なコード生成ベンチマークで上回っていることを示す。
論文 参考訳(メタデータ) (2026-02-08T07:28:44Z) - Vulnerable Agent Identification in Large-Scale Multi-Agent Reinforcement Learning [49.31650627835956]
システムがスケールアップすると、部分的なエージェントの障害は避けられないものとなり、全体的なパフォーマンスが著しく低下するエージェントのサブセットを特定することが重要になる。
本稿では,大規模マルチエージェント強化学習(MARL)における脆弱性エージェント識別(VAI)問題について検討する。
実験により, 大規模MARLおよびルールベースシステムにおいて, より脆弱なエージェントを効果的に同定し, システムを悪用し, それぞれのエージェントの脆弱性を明らかにする値関数を学習した。
論文 参考訳(メタデータ) (2025-09-18T16:03:50Z) - ComaDICE: Offline Cooperative Multi-Agent Reinforcement Learning with Stationary Distribution Shift Regularization [11.620274237352026]
オフライン強化学習(RL)は、事前に収集されたデータセットから効果的なポリシーを学習する能力において、大きな注目を集めている。
MARLは、大きな結合状態-作用空間とマルチエージェントの振る舞いの複雑さにより、さらなる課題を提起する。
定常分布空間に正規化器を導入し、分布シフトをよりよく処理する。
論文 参考訳(メタデータ) (2024-10-02T18:56:10Z) - Reaching Consensus in Cooperative Multi-Agent Reinforcement Learning
with Goal Imagination [16.74629849552254]
本稿では,複数のエージェントを協調するモデルに基づくコンセンサス機構を提案する。
提案したMulti-Adnt Goal Imagination (MAGI) フレームワークは、エージェントがImagined Common goalとコンセンサスに達するためのガイドである。
このような効率的なコンセンサス機構は、すべてのエージェントを協調して有用な将来状態に導くことができることを示す。
論文 参考訳(メタデータ) (2024-03-05T18:07:34Z) - Effective Multi-Agent Deep Reinforcement Learning Control with Relative
Entropy Regularization [6.441951360534903]
複数のエージェントによって制御される様々なシナリオにおいて、限られた能力とサンプル効率の問題に取り組むために、Multi-Agent Continuous Dynamic Policy Gradient (MACDPP)が提案された。
複数のエージェントのポリシー更新の不整合を緩和するために、アクター・クリティカル(AC)構造を持つ分散実行トレーニング(CTDE)フレームワークに相対エントロピー正規化を導入する。
論文 参考訳(メタデータ) (2023-09-26T07:38:19Z) - Towards Global Optimality in Cooperative MARL with the Transformation
And Distillation Framework [26.612749327414335]
分散実行は協調型マルチエージェント強化学習(MARL)における中核的要求である
本稿では,マルチエージェントポリシー勾配法と値分解法という,分散ポリシを用いた2つの一般的なアルゴリズムのクラスを理論的に解析する。
我々は,TAD-PPO が有限マルチエージェント MDP において最適政策学習を理論的に行うことができることを示す。
論文 参考訳(メタデータ) (2022-07-12T06:59:13Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。