論文の概要: CODA: Coordination via On-Policy Diffusion for Multi-Agent Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2604.23308v1
- Date: Sat, 25 Apr 2026 13:49:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.261248
- Title: CODA: Coordination via On-Policy Diffusion for Multi-Agent Offline Reinforcement Learning
- Title(参考訳): CODA:マルチエージェントオフライン強化学習のためのオンライン拡散によるコーディネーション
- Authors: Marcel Hedman, Kale-ab Abebe Tessera, Juan Claude Formanek, Anya Sims, Riccardo Zamboni, Trevor McInroe, John Torr, Elliot Fosong,
- Abstract要約: データ拡張のための拡散型マルチエージェントトラジェクタであるCODA(On-Policy Diffusion for Multi-Agent Reinforcement Learning)を紹介する。
従来の拡散に基づく拡張アプローチは,マルチエージェント協調の促進には不十分であることがわかった。
CODAは、連続ゲームにおける標準コーディネートパスを解消するが、より複雑なMaMuJoCo連続制御ベンチマークにも強い結果をもたらす。
- 参考スコア(独自算出の注目度): 4.361377672278534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline multi-agent reinforcement learning (MARL) enables policy learning from fixed datasets, but is prone to coordination failure: agents trained on static, off-policy data converge to suboptimal joint behaviours because they cannot co-adapt as their policies change. We introduce CODA (Coordination via On-Policy Diffusion for Multi-Agent Reinforcement Learning), a diffusion-based multi-agent trajectory generator for data augmentation that samples conditioned on the current joint policy, producing synthetic experience which reflects the evolving behaviours of the agents, thereby providing a mechanism for co-adaptation. We find that previous diffusion-based augmentation approaches are insufficient for fostering multi-agent coordination because they produce static augmented datasets that do not evolve as the current joint policy changes during training; CODA resolves this by more closely simulating on-policy learning and is a meaningful step toward coordinated behaviours in the offline setting. CODA is algorithm-agnostic and can be layered onto both model-free and model-based offline reinforcement learning pipelines as an augmentation module. Empirically, CODA not only resolves canonical coordination pathologies in continuous polynomial games but also delivers strong results on the more complex MaMuJoCo continuous-control benchmarks.
- Abstract(参考訳): オフラインのマルチエージェント強化学習(MARL)は、固定されたデータセットからポリシー学習を可能にするが、コーディネートする傾向にある。
我々は,CODA (On-Policy Diffusion for Multi-Agent Reinforcement Learning) という,データ拡張のための拡散型マルチエージェント・トラジェクトリ・ジェネレータを導入する。
従来の拡散に基づく拡張アプローチは、トレーニング中に現在の共同政策の変化に伴って進化しない静的な拡張データセットを生成するため、マルチエージェント協調の促進には不十分であることが判明した。
CODAはアルゴリズムに依存しないため、モデルフリーとモデルベースの両方のオフライン強化学習パイプラインを拡張モジュールとしてレイヤ化することができる。
実証的に、CODA は連続多項式ゲームにおける標準座標系を解くだけでなく、より複雑な MaMuJoCo の連続制御ベンチマークにも強い結果をもたらす。
関連論文リスト
- Diffusing to Coordinate: Efficient Online Multi-Agent Diffusion Policies [51.24079409973799]
拡散に基づく生成モデルは、オンラインマルチエージェント強化学習(MARL)のニーズを満たすために適切に配置されている
我々は、アンダーライン拡散ポリシーを用いて、最初のアンダーラインオフラインアンダーラインMARLフレームワークを提案する。
私たちのキーとなるイノベーションは、拡張された関節のエントロピーを最大化する、緩和された政策目標です。
論文 参考訳(メタデータ) (2026-02-20T15:38:02Z) - Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフライン協調型マルチエージェント強化学習(MARL)は、分散シフトによる固有の課題に直面している。
この作業は、オフラインとオンラインのMARL間の分散ギャップを明示的に解決する最初の作業である。
論文 参考訳(メタデータ) (2025-05-09T11:42:31Z) - Offline Multi-Agent Reinforcement Learning via In-Sample Sequential Policy Optimization [8.877649895977479]
オフラインマルチエージェント強化学習(英語: offline Multi-Agent Reinforcement Learning, MARL)は、事前コンパイルされたデータセットから最適なマルチエージェントポリシーを学ぶことを目的とした新興分野である。
本研究では、既存のオフラインMARLメソッドを再検討し、特定のシナリオにおいて問題となる可能性があることを示す。
In-Sample Sequential Policy Optimization (InSPO) と呼ばれる新しいオフラインMARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-10T16:19:08Z) - MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
MADiffは拡散型マルチエージェント学習フレームワークである。
分散ポリシと集中型コントローラの両方として機能する。
実験の結果,MADiffは様々なマルチエージェント学習タスクにおいて,ベースラインアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-05-27T02:14:09Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - Offline Decentralized Multi-Agent Reinforcement Learning [33.4713690991284]
オフライン分散マルチエージェント強化学習のためのフレームワークを提案する。
我々は値の偏差と遷移正規化を利用して遷移確率を変化させる。
このフレームワークは、既存のオフライン強化学習アルゴリズムで簡単に構築できることを示す。
論文 参考訳(メタデータ) (2021-08-04T03:53:33Z) - Multi-Agent Interactions Modeling with Correlated Policies [53.38338964628494]
本稿では,マルチエージェントインタラクションモデリング問題をマルチエージェント模倣学習フレームワークに実装する。
相関ポリシー(CoDAIL)を用いた分散型適応模倣学習アルゴリズムの開発
様々な実験により、CoDAILはデモレーターに近い複雑な相互作用をより良く再生できることが示されている。
論文 参考訳(メタデータ) (2020-01-04T17:31:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。