論文の概要: Scalable Constrained Multi-Agent Reinforcement Learning via State Augmentation and Consensus for Separable Dynamics
- arxiv url: http://arxiv.org/abs/2605.30461v1
- Date: Thu, 28 May 2026 18:37:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.174435
- Title: Scalable Constrained Multi-Agent Reinforcement Learning via State Augmentation and Consensus for Separable Dynamics
- Title(参考訳): 可分性ダイナミクスのための状態拡張と合意による拡張性制約付きマルチエージェント強化学習
- Authors: Santiago Amaya-Corredor, Miguel Calvo-Fullana, Anders Jonsson,
- Abstract要約: 制約付きマルチエージェント強化学習(MARL)のための分散手法を提案する。
本手法は,エージェントが分離可能なダイナミクスを持つが,グローバルな資源制約を満たすように調整する必要があるシステムを対象としている。
ラグランジュ乗算器に対する軽量な隣り合わせのコンセンサスがグローバルに協調された制約執行に十分であることを示す。
- 参考スコア(独自算出の注目度): 4.278821961637313
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a distributed approach for constrained Multi-Agent Reinforcement Learning (MARL) that combines state-augmented policy learning with distributed consensus over dual variables. Our method targets systems where agents have separable dynamics but must coordinate to satisfy global resource constraints, a setting in which, as we demonstrate empirically, independent learning fails to produce feasible solutions because agents cannot determine appropriate individual contributions toward collective constraint satisfaction. The key technical contribution is showing that lightweight neighbor-to-neighbor consensus over Lagrange multipliers suffices for globally coordinated constraint enforcement while preserving the scalability of independent training. Each agent learns a single augmented policy offline, conditioned on both its local state and a dual variable encoding constraint feedback. During execution, agents reach agreement on this dual variable through local communication alone. We prove that under mild connectivity assumptions, the consensus error among agents' multipliers is bounded, and show that this translates to a bounded constraint violation that decreases with graph connectivity and the number of consensus rounds. Unlike centralized training with decentralized execution (CTDE) approaches, whose complexity grows at least quadratically with agent count, our method scales linearly in both training and execution. Experiments on smart grid demand response demonstrate that consensus coordination is \emph{essential for feasibility}: without it, agents satisfy grid capacity constraints only by indefinitely postponing demand, a degenerate non-solution. With consensus, agents converge to a shared dual variable and satisfy both grid constraints and demand fulfillment, scaling to thousands of agents while CTDE baselines are limited to dozens.
- Abstract(参考訳): 本稿では、状態拡張政策学習と分散コンセンサスを組み合わせた制約付きマルチエージェント強化学習(MARL)の分散手法を提案する。
本手法は,エージェントがグローバルな資源制約を満たすために調整する必要があるが,エージェントが集団的制約満足度に対する適切な個人的貢献を判断できないため,実験的に独立学習が実現不可能なシステムを対象としている。
重要な技術的貢献は、ラグランジュ乗算器に対するライトウェイトな隣り合わせのコンセンサスが、独立トレーニングのスケーラビリティを保ちながら、グローバルに調整された制約執行に十分であることを示すことである。
各エージェントは、ローカル状態と、制約フィードバックを符号化するデュアル変数の両方に基づいて、単一の拡張ポリシをオフラインで学習する。
実行中、エージェントはローカル通信だけでこのデュアル変数について合意に達する。
軽快な接続仮定の下では,エージェントの乗算器間のコンセンサス誤差が有界であることが証明され,グラフ接続やコンセンサスラウンド数によって減少する制約違反に変換されることを示す。
分散実行(CTDE)による集中型トレーニングとは違って,複雑性はエージェント数に比例して増大するが,本手法はトレーニングと実行の両方で線形にスケールする。
スマートグリッド需要応答の実験では、コンセンサスコーディネートは、実現可能性のためのemph{essential} であることが示されている。
コンセンサスでは、エージェントは共有デュアル変数に収束し、グリッド制約と需要充足の両方を満たす。
関連論文リスト
- Beyond Arrow's Impossibility: Fairness as an Emergent Property of Multi-Agent Collaboration [3.4539478661465766]
大規模言語モデルがエージェントとなるにつれて、相互作用と交換によって公平性が生まれることを提案する。
本研究は,2人のエージェントが3回の構造化された議論ラウンドで交渉する,管理された病院トリアージの枠組みを用いて研究する。
論文 参考訳(メタデータ) (2026-04-15T10:34:35Z) - On Performance Guarantees for Federated Learning with Personalized Constraints [1.0195618602298684]
フェデレートラーニング(FL)は、複数のエージェントにまたがる分散ラーニングのための通信効率のよいアルゴリズムフレームワークとして登場した。
そこで我々は,PC-FedAvgを提案する。PC-FedAvgはマルチブロック局所決定ベクトルを用いて,各エージェントが他エージェントの変数の相互推定を行う手法である。
我々は,サブ最適化のために$mathcalO(-2)$,エージェントワイド実現のために$mathcalO(-1)$の通信複雑度を定めている。
論文 参考訳(メタデータ) (2026-03-20T03:49:28Z) - Deep Reinforcement Learning for Multi-Agent Coordination [8.250169938213558]
本稿では,仮想フェロモンを用いて局所的・社会的相互作用をモデル化するS-MADRL(Stigmergic Multi-Agent Deep Reinforcement Learning)フレームワークを提案する。
我々は,ロボットが非対称な作業負荷分布に自己組織化される,最大8つのエージェントの最も効果的な協調を実現していることを示す。
この創発的行動は、自然界で観察される戦略に類似しており、混雑した環境下での分散マルチエージェント協調のためのスケーラブルなソリューションを示している。
論文 参考訳(メタデータ) (2025-10-04T00:47:20Z) - Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフライン協調型マルチエージェント強化学習(MARL)は、分散シフトによる固有の課題に直面している。
この作業は、オフラインとオンラインのMARL間の分散ギャップを明示的に解決する最初の作業である。
論文 参考訳(メタデータ) (2025-05-09T11:42:31Z) - AgentMixer: Multi-Agent Correlated Policy Factorization [35.73799473896975]
AgentMixerは、個々の部分的に監視可能なポリシーを、非線形に完全に監視可能な共同ポリシーに結合する。
AgentMixerは、Multi-Agent MuJoCo、SMAC-v2、Matrix Game、Predator-Preyベンチマークにおける最先端のメソッドより優れているか、あるいは一致している。
論文 参考訳(メタデータ) (2024-01-16T15:32:41Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。