論文の概要: Diffusing to Coordinate: Efficient Online Multi-Agent Diffusion Policies
- arxiv url: http://arxiv.org/abs/2602.18291v1
- Date: Fri, 20 Feb 2026 15:38:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.362792
- Title: Diffusing to Coordinate: Efficient Online Multi-Agent Diffusion Policies
- Title(参考訳): Diffusing to Coordinate: 効率的なオンラインマルチエージェント拡散法
- Authors: Zhuoran Li, Hai Zhong, Xun Wang, Qingxin Xia, Lihua Zhang, Longbo Huang,
- Abstract要約: 拡散に基づく生成モデルは、オンラインマルチエージェント強化学習(MARL)のニーズを満たすために適切に配置されている
我々は、アンダーライン拡散ポリシーを用いて、最初のアンダーラインオフラインアンダーラインMARLフレームワークを提案する。
私たちのキーとなるイノベーションは、拡張された関節のエントロピーを最大化する、緩和された政策目標です。
- 参考スコア(独自算出の注目度): 51.24079409973799
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online Multi-Agent Reinforcement Learning (MARL) is a prominent framework for efficient agent coordination. Crucially, enhancing policy expressiveness is pivotal for achieving superior performance. Diffusion-based generative models are well-positioned to meet this demand, having demonstrated remarkable expressiveness and multimodal representation in image generation and offline settings. Yet, their potential in online MARL remains largely under-explored. A major obstacle is that the intractable likelihoods of diffusion models impede entropy-based exploration and coordination. To tackle this challenge, we propose among the first \underline{O}nline off-policy \underline{MA}RL framework using \underline{D}iffusion policies (\textbf{OMAD}) to orchestrate coordination. Our key innovation is a relaxed policy objective that maximizes scaled joint entropy, facilitating effective exploration without relying on tractable likelihood. Complementing this, within the centralized training with decentralized execution (CTDE) paradigm, we employ a joint distributional value function to optimize decentralized diffusion policies. It leverages tractable entropy-augmented targets to guide the simultaneous updates of diffusion policies, thereby ensuring stable coordination. Extensive evaluations on MPE and MAMuJoCo establish our method as the new state-of-the-art across $10$ diverse tasks, demonstrating a remarkable $2.5\times$ to $5\times$ improvement in sample efficiency.
- Abstract(参考訳): オンラインマルチエージェント強化学習(英語: Online Multi-Agent Reinforcement Learning, MARL)は、効率的なエージェント調整のための重要なフレームワークである。
重要なことは、優れたパフォーマンスを達成するために政策表現性を高めることが重要である。
拡散に基づく生成モデルは、画像生成とオフライン設定において顕著な表現性およびマルチモーダル表現を示し、この要求を満たすように適切に配置されている。
しかし、オンラインMARLにおける彼らのポテンシャルは、ほとんど未調査のままである。
主な障害は、拡散モデルの難易度がエントロピーに基づく探索と調整を妨げることである。
この課題に対処するために、我々は、最初の \underline{O}nline off-policy \underline{MA}RL フレームワークとして、 \underline{D}iffusion Policy (\textbf{OMAD}) を用いて協調を編成する。
私たちのキーとなるイノベーションは、拡張された関節のエントロピーを最大化する、緩和された政策目標です。
これを補完するために、分散分散実行(CTDE)パラダイムを用いた集中的なトレーニングにおいて、分散拡散ポリシーを最適化するために、共同分布値関数を用いる。
トラクタブルエントロピー拡張ターゲットを利用して、拡散ポリシーの同時更新を誘導し、安定した調整を保証する。
MPEとMAMuJoCoの大規模な評価は、我々の手法を10ドルの多様なタスクにまたがる新しい最先端技術として確立し、顕著な$2.5\times$から$5\times$サンプル効率の改善を示す。
関連論文リスト
- Dichotomous Diffusion Policy Optimization [46.51375996317989]
DIPOLEは、安定かつ制御可能な拡散ポリシー最適化のために設計された新しいRLアルゴリズムである。
また、DIPOLEを使用して、エンドツーエンドの自動運転のための大規模なビジョン言語アクションモデルをトレーニングしています。
論文 参考訳(メタデータ) (2025-12-31T16:56:56Z) - Multi-Agent Conditional Diffusion Model with Mean Field Communication as Wireless Resource Allocation Planner [16.759740918605768]
無線通信システムでは、QoS(Quality of Service)の強化において、効率的かつ適応的なリソース割り当てが重要な役割を担っている。
対照的に、分散トレーニングと分散実行(DTDE)パラダイムは、分散学習と意思決定を可能にする。
分散通信資源管理のためのマルチエージェント条件拡散モデルプランナ(MACDMP)を提案する。
論文 参考訳(メタデータ) (2025-10-27T03:42:18Z) - Reinforcement Learning with Discrete Diffusion Policies for Combinatorial Action Spaces [57.466101098183884]
強化学習(Reinforcement Learning, RL)は、現実の多くの問題に共通する大規模なアクション空間にスケールするために苦労する。
本稿では、複雑な環境下での高効率なポリシーとして、離散拡散モデルを訓練するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-26T21:53:36Z) - Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフライン協調型マルチエージェント強化学習(MARL)は、分散シフトによる固有の課題に直面している。
この作業は、オフラインとオンラインのMARL間の分散ギャップを明示的に解決する最初の作業である。
論文 参考訳(メタデータ) (2025-05-09T11:42:31Z) - Offline Multi-Agent Reinforcement Learning via In-Sample Sequential Policy Optimization [8.877649895977479]
オフラインマルチエージェント強化学習(英語: offline Multi-Agent Reinforcement Learning, MARL)は、事前コンパイルされたデータセットから最適なマルチエージェントポリシーを学ぶことを目的とした新興分野である。
本研究では、既存のオフラインMARLメソッドを再検討し、特定のシナリオにおいて問題となる可能性があることを示す。
In-Sample Sequential Policy Optimization (InSPO) と呼ばれる新しいオフラインMARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-10T16:19:08Z) - ComaDICE: Offline Cooperative Multi-Agent Reinforcement Learning with Stationary Distribution Shift Regularization [11.620274237352026]
オフライン強化学習(RL)は、事前に収集されたデータセットから効果的なポリシーを学習する能力において、大きな注目を集めている。
MARLは、大きな結合状態-作用空間とマルチエージェントの振る舞いの複雑さにより、さらなる課題を提起する。
定常分布空間に正規化器を導入し、分布シフトをよりよく処理する。
論文 参考訳(メタデータ) (2024-10-02T18:56:10Z) - MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
MADiffは拡散型マルチエージェント学習フレームワークである。
分散ポリシと集中型コントローラの両方として機能する。
実験の結果,MADiffは様々なマルチエージェント学習タスクにおいて,ベースラインアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-05-27T02:14:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。