論文の概要: Structured Cooperative Multi-Agent Reinforcement Learning: a Bayesian Network Perspective
- arxiv url: http://arxiv.org/abs/2510.09937v1
- Date: Sat, 11 Oct 2025 00:29:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.702337
- Title: Structured Cooperative Multi-Agent Reinforcement Learning: a Bayesian Network Perspective
- Title(参考訳): 構造的協調型多エージェント強化学習:ベイズネットワークの視点から
- Authors: Shahbaz P Qadri Syed, He Bai,
- Abstract要約: 本研究では, モデルレス強化学習において, エージェント間結合における構造を有効活用するための体系的アプローチを提案する。
P-DTDEスキームに基づくマルチエージェントポリシー勾配定理を導出し,スケーラブルなアクター・クリティック・アルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 1.2515675707300356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The empirical success of multi-agent reinforcement learning (MARL) has motivated the search for more efficient and scalable algorithms for large scale multi-agent systems. However, existing state-of-the-art algorithms do not fully exploit inter-agent coupling information to develop MARL algorithms. In this paper, we propose a systematic approach to leverage structures in the inter-agent couplings for efficient model-free reinforcement learning. We model the cooperative MARL problem via a Bayesian network and characterize the subset of agents, termed as the value dependency set, whose information is required by each agent to estimate its local action value function exactly. Moreover, we propose a partially decentralized training decentralized execution (P-DTDE) paradigm based on the value dependency set. We theoretically establish that the total variance of our P-DTDE policy gradient estimator is less than the centralized training decentralized execution (CTDE) policy gradient estimator. We derive a multi-agent policy gradient theorem based on the P-DTDE scheme and develop a scalable actor-critic algorithm. We demonstrate the efficiency and scalability of the proposed algorithm on multi-warehouse resource allocation and multi-zone temperature control examples. For dense value dependency sets, we propose an approximation scheme based on truncation of the Bayesian network and empirically show that it achieves a faster convergence than the exact value dependence set for applications with a large number of agents.
- Abstract(参考訳): マルチエージェント強化学習(MARL)の実証的な成功は、大規模マルチエージェントシステムのためのより効率的でスケーラブルなアルゴリズムの探索を動機付けている。
しかし、既存の最先端アルゴリズムは、MARLアルゴリズムを開発するためにエージェント間カップリング情報を十分に活用していない。
本稿では, モデルレス強化学習において, エージェント間結合の構造を有効活用するための体系的アプローチを提案する。
我々はベイズネットワークを介して協調的なMARL問題をモデル化し、各エージェントがローカルアクション値関数を正確に推定するために要求する値依存集合と呼ばれるエージェントのサブセットを特徴付ける。
さらに,P-DTDE(P-DTDE)パラダイムを,値依存集合に基づく部分分散トレーニングとして提案する。
我々は、P-DTDE政策勾配推定器の総分散が、CTDE政策勾配推定器よりも小さいことを理論的に確立する。
P-DTDEスキームに基づくマルチエージェントポリシー勾配定理を導出し,スケーラブルなアクター・クリティック・アルゴリズムを開発した。
本稿では,マルチウェアハウス資源割り当てとマルチゾーン温度制御の例について,提案アルゴリズムの効率性と拡張性を示す。
密度値依存集合に対しては,ベイジアンネットワークの切り離しに基づく近似スキームを提案し,多数のエージェントを持つアプリケーションに対して,正確な値依存集合よりも高速な収束を実現することを実証的に示す。
関連論文リスト
- Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Approximate Linear Programming for Decentralized Policy Iteration in Cooperative Multi-agent Markov Decision Processes [5.842054972839244]
我々は,mエージェントを含む協調的マルチエージェントマルコフ決定過程について考察する。
マルチエージェント設定のポリシーイテレーションプロセスでは、アクションの数はエージェントの数とともに指数関数的に増加する。
本稿では,関数近似を用いた近似線形計画法を用いて,近似分散型ポリシー反復アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-20T14:14:13Z) - Towards Global Optimality in Cooperative MARL with the Transformation
And Distillation Framework [26.612749327414335]
分散実行は協調型マルチエージェント強化学習(MARL)における中核的要求である
本稿では,マルチエージェントポリシー勾配法と値分解法という,分散ポリシを用いた2つの一般的なアルゴリズムのクラスを理論的に解析する。
我々は,TAD-PPO が有限マルチエージェント MDP において最適政策学習を理論的に行うことができることを示す。
論文 参考訳(メタデータ) (2022-07-12T06:59:13Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in
Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。
本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。
実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文 参考訳(メタデータ) (2021-06-30T16:49:07Z) - The Gradient Convergence Bound of Federated Multi-Agent Reinforcement
Learning with Efficient Communication [20.891460617583302]
連立学習パラダイムにおける協調的意思決定のための独立強化学習(IRL)の検討
FLはエージェントとリモート中央サーバ間の過剰な通信オーバーヘッドを生成する。
本稿では,システムの実用性向上のための2つの高度な最適化手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T07:21:43Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。