論文の概要: Decentralized Diffusion Policy Learning for Enhanced Exploration in Cooperative Multi-agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.07101v1
- Date: Fri, 08 May 2026 01:29:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.717264
- Title: Decentralized Diffusion Policy Learning for Enhanced Exploration in Cooperative Multi-agent Reinforcement Learning
- Title(参考訳): 協調型マルチエージェント強化学習における探索強化のための分散拡散政策学習
- Authors: Yuyang Zhang, Haldun Balim, Na Li,
- Abstract要約: 分散ソフトマックスポリシー勾配(DecSPG)は、協調型マルチエージェント強化学習のためのアルゴリズムのクラスである。
ガウス政策の限定的な表現性は、DECSPGの探索を著しく妨げていることを示す。
本稿では,分散拡散確率モデルを用いて各エージェントのポリシーをパラメータ化する分散拡散政策学習(DDPL)を提案する。
- 参考スコア(独自算出の注目度): 12.831519967591007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cooperative multi-agent reinforcement learning (MARL) involves complex agent interactions and requires effective exploration strategies. A prominent class of MARL algorithms, decentralized softmax policy gradient (DecSPG), addresses this through energy-based policy updates. In practice, however, such energy-based policies are intractable to maintain and are commonly projected onto the Gaussian policy class. In this work, we show that the limited expressiveness of Gaussian policies severely hinders exploration in DecSPG, and this limitation worsens as the number of agents grows. To address this issue, we propose decentralized diffusion policy learning (DDPL), which parameterizes each agent's policy with a denoising diffusion probabilistic model, an expressive generative model that captures multi-modal action distributions for enhanced exploration. DDPL enables efficient online training of diffusion policies via importance sampling score matching (ISSM), a novel training method with theoretical guarantee. We evaluate DDPL on representative continuous-action MARL benchmarks, including multi-agent particle environment, multi-agent MuJoCo, IsaacLab, and JAX-reimplemented StarCraft multi-agent challenge, and observe consistently improved performance.
- Abstract(参考訳): 協調型マルチエージェント強化学習(MARL)は複雑なエージェント相互作用を伴い、効果的な探索戦略を必要とする。
MARLアルゴリズムの傑出したクラスである分散ソフトマックスポリシー勾配(DecSPG)は、エネルギーベースのポリシー更新を通じてこの問題に対処する。
しかし実際には、そのようなエネルギーベースの政策は維持が困難であり、一般的にガウスの政策クラスに投影される。
本研究は,ガウス政策の限定的表現性はDECSPGの探索を著しく妨げることを示し,エージェントの数が増加するにつれて,この制限は悪化することを示した。
本稿では,分散拡散確率モデルを用いて各エージェントのポリシーをパラメータ化する分散拡散政策学習(DDPL)を提案する。
DDPLは,理論的な保証のある新しいトレーニング手法である重要サンプリングスコアマッチング(ISSM)を通じて,拡散政策の効率的なオンライントレーニングを可能にする。
我々は,マルチエージェント粒子環境,マルチエージェント MuJoCo,IsaacLab,JAX-reimplemented StarCraft といった代表的連続作用 MARL ベンチマーク上で DDPL を評価し,一貫した性能向上を図った。
関連論文リスト
- Diffusing to Coordinate: Efficient Online Multi-Agent Diffusion Policies [51.24079409973799]
拡散に基づく生成モデルは、オンラインマルチエージェント強化学習(MARL)のニーズを満たすために適切に配置されている
我々は、アンダーライン拡散ポリシーを用いて、最初のアンダーラインオフラインアンダーラインMARLフレームワークを提案する。
私たちのキーとなるイノベーションは、拡張された関節のエントロピーを最大化する、緩和された政策目標です。
論文 参考訳(メタデータ) (2026-02-20T15:38:02Z) - Reinforcement Learning with Discrete Diffusion Policies for Combinatorial Action Spaces [57.466101098183884]
強化学習(Reinforcement Learning, RL)は、現実の多くの問題に共通する大規模なアクション空間にスケールするために苦労する。
本稿では、複雑な環境下での高効率なポリシーとして、離散拡散モデルを訓練するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-26T21:53:36Z) - Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフライン協調型マルチエージェント強化学習(MARL)は、分散シフトによる固有の課題に直面している。
この作業は、オフラインとオンラインのMARL間の分散ギャップを明示的に解決する最初の作業である。
論文 参考訳(メタデータ) (2025-05-09T11:42:31Z) - ComaDICE: Offline Cooperative Multi-Agent Reinforcement Learning with Stationary Distribution Shift Regularization [11.620274237352026]
オフライン強化学習(RL)は、事前に収集されたデータセットから効果的なポリシーを学習する能力において、大きな注目を集めている。
MARLは、大きな結合状態-作用空間とマルチエージェントの振る舞いの複雑さにより、さらなる課題を提起する。
定常分布空間に正規化器を導入し、分布シフトをよりよく処理する。
論文 参考訳(メタデータ) (2024-10-02T18:56:10Z) - Deep Multi-Agent Reinforcement Learning for Decentralized Active
Hypothesis Testing [11.639503711252663]
我々は,深層多エージェント強化学習の枠組みに根ざした新しいアルゴリズムを導入することで,マルチエージェント能動仮説テスト(AHT)問題に取り組む。
エージェントが協調戦略を学習し、性能を向上させる能力を効果的に示す実験結果を包括的に提示する。
論文 参考訳(メタデータ) (2023-09-14T01:18:04Z) - Policy Representation via Diffusion Probability Model for Reinforcement
Learning [67.56363353547775]
拡散確率モデルを用いて政策表現の理論的基礎を構築する。
本稿では,拡散政策の多様性を理解するための理論を提供する,拡散政策の収束保証について述べる。
本研究では,Diffusion POlicyを用いたモデルフリーオンラインRLの実装であるDIPOを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:23:41Z) - Taming Multi-Agent Reinforcement Learning with Estimator Variance
Reduction [12.94372063457462]
分散実行(CT-DE)による集中トレーニングは、多くの主要なマルチエージェント強化学習(MARL)アルゴリズムの基礎となっている。
特定の状態における共同行動の単一のサンプルから学ぶことに依存しているため、これは重大な欠点に悩まされる。
本稿では,アクター・クリティカルなMARL法に対応する拡張ツールを提案する。
論文 参考訳(メタデータ) (2022-09-02T13:44:00Z) - Towards Global Optimality in Cooperative MARL with the Transformation
And Distillation Framework [26.612749327414335]
分散実行は協調型マルチエージェント強化学習(MARL)における中核的要求である
本稿では,マルチエージェントポリシー勾配法と値分解法という,分散ポリシを用いた2つの一般的なアルゴリズムのクラスを理論的に解析する。
我々は,TAD-PPO が有限マルチエージェント MDP において最適政策学習を理論的に行うことができることを示す。
論文 参考訳(メタデータ) (2022-07-12T06:59:13Z) - Trust Region Policy Optimisation in Multi-Agent Reinforcement Learning [25.027143431992755]
信頼領域の手法により、強化学習(RL)エージェントが単調な政策改善を学ぶことができるようになり、様々なタスクにおいて優れたパフォーマンスが得られた。
残念ながら、マルチエージェント強化学習(MARL)では、単調改善の特性は単純に適用できない。
本稿では、信頼領域学習の理論をMARLに拡張し、マルチエージェント・アドバンテージ分解補題とシーケンシャルポリシー更新スキームについて述べる。
これらに基づき、異種信託地域政策最適化(HATPRO)と異種信託地域政策最適化(HATPRO)を開発する。
論文 参考訳(メタデータ) (2021-09-23T09:44:35Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。