論文の概要: Revisiting Multi-Agent World Modeling from a Diffusion-Inspired Perspective
- arxiv url: http://arxiv.org/abs/2505.20922v1
- Date: Tue, 27 May 2025 09:11:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.535717
- Title: Revisiting Multi-Agent World Modeling from a Diffusion-Inspired Perspective
- Title(参考訳): 拡散にインスパイアされた視点から見たマルチエージェント世界モデリングの再考
- Authors: Yang Zhang, Xinran Li, Jianing Ye, Delin Qu, Shuang Qiu, Chongjie Zhang, Xiu Li, Chenjia Bai,
- Abstract要約: 拡散モデルを用いたマルチエージェント強化学習(MARL)のためのフレキシブルで堅牢な世界モデルを開発する。
本手法はDiffusion-Inspired Multi-Agent World Model (DIMA) を用いて,複数のマルチエージェント制御ベンチマークにおける最先端性能を実現する。
- 参考スコア(独自算出の注目度): 45.44355861030715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: World models have recently attracted growing interest in Multi-Agent Reinforcement Learning (MARL) due to their ability to improve sample efficiency for policy learning. However, accurately modeling environments in MARL is challenging due to the exponentially large joint action space and highly uncertain dynamics inherent in multi-agent systems. To address this, we reduce modeling complexity by shifting from jointly modeling the entire state-action transition dynamics to focusing on the state space alone at each timestep through sequential agent modeling. Specifically, our approach enables the model to progressively resolve uncertainty while capturing the structured dependencies among agents, providing a more accurate representation of how agents influence the state. Interestingly, this sequential revelation of agents' actions in a multi-agent system aligns with the reverse process in diffusion models--a class of powerful generative models known for their expressiveness and training stability compared to autoregressive or latent variable models. Leveraging this insight, we develop a flexible and robust world model for MARL using diffusion models. Our method, Diffusion-Inspired Multi-Agent world model (DIMA), achieves state-of-the-art performance across multiple multi-agent control benchmarks, significantly outperforming prior world models in terms of final return and sample efficiency, including MAMuJoCo and Bi-DexHands. DIMA establishes a new paradigm for constructing multi-agent world models, advancing the frontier of MARL research.
- Abstract(参考訳): 近年,多エージェント強化学習(MARL)への関心が高まっている。
しかし、MARLの環境を正確にモデル化することは、指数関数的に大きな関節アクション空間と、マルチエージェントシステムに固有の非常に不確実なダイナミクスのために困難である。
これを解決するために、状態-作用遷移のダイナミクス全体を共同でモデル化することから、シーケンシャル・エージェント・モデリングを通じて各時点における状態空間のみに焦点を当てることにより、モデリングの複雑さを低減する。
具体的には、エージェント間の構造的依存関係を捕捉しながら、モデルが不確実性を段階的に解決し、エージェントが状態にどのように影響するかをより正確に表現することを可能にする。
興味深いことに、マルチエージェントシステムにおけるエージェントのアクションの逐次的啓示は拡散モデルにおける逆過程と一致している。
この知見を生かして,拡散モデルを用いたMARLのフレキシブルで堅牢な世界モデルを開発する。
提案手法であるDiffusion-Inspired Multi-Agent World Model (DIMA) は,複数のマルチエージェント制御ベンチマークにおける最先端性能を実現し,MAMuJoCo や Bi-DexHands など,最終的なリターンとサンプル効率の面で,先進世界モデルよりも大幅に優れていた。
DIMAはマルチエージェントの世界モデルを構築するための新しいパラダイムを確立し、MARL研究のフロンティアを前進させる。
関連論文リスト
- Consistent World Models via Foresight Diffusion [56.45012929930605]
我々は、一貫した拡散に基づく世界モデルを学習する上で重要なボトルネックは、最適下予測能力にあると主張している。
本稿では,拡散に基づく世界モデリングフレームワークであるForesight Diffusion(ForeDiff)を提案する。
論文 参考訳(メタデータ) (2025-05-22T10:01:59Z) - Decentralized Transformers with Centralized Aggregation are Sample-Efficient Multi-Agent World Models [106.94827590977337]
本稿では,分散化された局所力学を拡張性のために学習するマルチエージェントRL(MARL)の新たな世界モデルを提案する。
また、集中表現アグリゲーションを可能にする効果的なソリューションとしてPerceiver Transformerを導入する。
Starcraft Multi-Agent Challenge (SMAC) の結果は、サンプル効率と全体的な性能の両方において、強力なモデルフリーアプローチと既存のモデルベース手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-06-22T12:40:03Z) - Diffusion for World Modeling: Visual Details Matter in Atari [22.915802013352465]
拡散世界モデルで訓練された強化学習エージェントであるDIAMOND(DIffusion As a Model of eNvironment Dreams)を紹介する。
我々は,世界モデリングに適した拡散を実現する上で必要となる重要な設計選択を解析し,視覚的詳細の改善がエージェントの性能向上にどのように寄与するかを実証する。
DIAMONDは競争力のあるAtari 100kベンチマークで平均1.46の人間正規化スコアを達成している。
論文 参考訳(メタデータ) (2024-05-20T22:51:05Z) - Leveraging World Model Disentanglement in Value-Based Multi-Agent
Reinforcement Learning [18.651307543537655]
本稿では,Distangled World Modelを用いた新しいモデルベースマルチエージェント強化学習手法であるValue Decomposition Frameworkを提案する。
本研究では,本手法が高サンプリング効率を実現し,敵軍を撃破する性能が他のベースラインよりも優れていることを示すために,簡単な,ハード,スーパーハードのStarCraft IIマイクロマネジメントの課題について実験的に検討した。
論文 参考訳(メタデータ) (2023-09-08T22:12:43Z) - MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
MADiffは拡散型マルチエージェント学習フレームワークである。
分散ポリシと集中型コントローラの両方として機能する。
実験の結果,MADiffは様々なマルチエージェント学習タスクにおいて,ベースラインアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-05-27T02:14:09Z) - Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。
本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。
提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文 参考訳(メタデータ) (2021-07-10T03:49:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。