論文の概要: Transformer World Model for Sample Efficient Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.18537v1
- Date: Mon, 23 Jun 2025 11:47:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.962982
- Title: Transformer World Model for Sample Efficient Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習のためのトランスフォーマー世界モデル
- Authors: Azad Deihim, Eduardo Alonso, Dimitra Apostolopoulou,
- Abstract要約: 我々は、強化学習のための新しいトランスフォーマーベース世界モデルであるMulti-Agent Transformer World Model(MATWM)を提案する。
MATWMは、分散化された想像力フレームワークと半集中型の批評家とチームメイト予測モジュールを組み合わせる。
我々は,StarCraft Multi-Agent Challenge, PettingZoo, MeltingPotなど,幅広いベンチマークでMATWMを評価した。
- 参考スコア(独自算出の注目度): 2.3964255330849356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the Multi-Agent Transformer World Model (MATWM), a novel transformer-based world model designed for multi-agent reinforcement learning in both vector- and image-based environments. MATWM combines a decentralized imagination framework with a semi-centralized critic and a teammate prediction module, enabling agents to model and anticipate the behavior of others under partial observability. To address non-stationarity, we incorporate a prioritized replay mechanism that trains the world model on recent experiences, allowing it to adapt to agents' evolving policies. We evaluated MATWM on a broad suite of benchmarks, including the StarCraft Multi-Agent Challenge, PettingZoo, and MeltingPot. MATWM achieves state-of-the-art performance, outperforming both model-free and prior world model approaches, while demonstrating strong sample efficiency, achieving near-optimal performance in as few as 50K environment interactions. Ablation studies confirm the impact of each component, with substantial gains in coordination-heavy tasks.
- Abstract(参考訳): 本稿では,ベクトル環境と画像環境の両方において,マルチエージェント強化学習のための新しいトランスフォーマーベース世界モデルであるMulti-Agent Transformer World Model(MATWM)を提案する。
MATWMは、分散化されたイマジネーションフレームワークと半集中的な批評家とチームメイト予測モジュールを組み合わせることで、エージェントが部分的な可観測性の下で他人の振る舞いをモデル化し予測することができる。
非定常性に対処するために、我々は、最近の経験に基づいて世界モデルを訓練し、エージェントの進化するポリシーに適応できる優先順位付けされたリプレイ機構を組み込んだ。
我々は、StarCraft Multi-Agent Challenge、PettingZoo、MeltingPotなど、幅広いベンチマークでMATWMを評価した。
MATWMは最先端の性能を達成し、モデルフリーと先行世界モデルの両方のアプローチを上回り、強いサンプル効率を示し、最大50Kの環境相互作用でほぼ最適性能を達成する。
アブレーション研究は、各コンポーネントの影響を確認し、コーディネーションが重いタスクでかなりの利益を上げている。
関連論文リスト
- Learning Transformer-based World Models with Contrastive Predictive Coding [58.0159270859475]
変換器の表現能力を十分に活用するには,次の状態予測目標が不十分であることを示す。
本稿では,行動条件のContrastive Predictive Codingを用いた世界モデルであるTWISTERを導入することで,世界モデル予測をより長い時間的地平線まで拡張することを提案する。
TWISTERは、Atari 100kベンチマークで162%の人間正規化平均スコアを達成し、ルックアヘッド検索を使用しない最先端のメソッドの中で、新しい記録を樹立した。
論文 参考訳(メタデータ) (2025-03-06T13:18:37Z) - Multi-Agent Sampling: Scaling Inference Compute for Data Synthesis with Tree Search-Based Agentic Collaboration [81.45763823762682]
本研究の目的は,マルチエージェントサンプリングによるデータ合成の問題を調べることでギャップを埋めることである。
逐次サンプリングプロセス中にワークフローが反復的に進化する木探索に基づくオーケストレーションエージェント(TOA)を紹介する。
アライメント、機械翻訳、数学的推論に関する実験は、マルチエージェントサンプリングが推論計算スケールとしてシングルエージェントサンプリングを著しく上回ることを示した。
論文 参考訳(メタデータ) (2024-12-22T15:16:44Z) - Masked Generative Priors Improve World Models Sequence Modelling Capabilities [19.700020499490137]
Masked Generative Modellingはより効率的で優れた帰納的バイアスとして登場した。
GIT-STORMは、Atari 100kベンチマークでRLタスクのパフォーマンスが大幅に向上したことを示している。
トランスフォーマーをベースとした世界モデルが初めて連続行動環境に適用し、先行研究における大きなギャップに対処する。
論文 参考訳(メタデータ) (2024-10-10T11:52:07Z) - Decentralized Transformers with Centralized Aggregation are Sample-Efficient Multi-Agent World Models [106.94827590977337]
本稿では,分散化された局所力学を拡張性のために学習するマルチエージェントRL(MARL)の新たな世界モデルを提案する。
また、集中表現アグリゲーションを可能にする効果的なソリューションとしてPerceiver Transformerを導入する。
Starcraft Multi-Agent Challenge (SMAC) の結果は、サンプル効率と全体的な性能の両方において、強力なモデルフリーアプローチと既存のモデルベース手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-06-22T12:40:03Z) - STORM: Efficient Stochastic Transformer based World Models for
Reinforcement Learning [82.03481509373037]
近年,モデルに基づく強化学習アルゴリズムは視覚入力環境において顕著な有効性を示している。
本稿では,強力なモデリングと生成機能を組み合わせた効率的な世界モデルアーキテクチャであるTransformer-based wORld Model (STORM)を紹介する。
Stormは、Atari 100$kベンチマークで平均126.7%の人的パフォーマンスを達成し、最先端のメソッドの中で新しい記録を樹立した。
論文 参考訳(メタデータ) (2023-10-14T16:42:02Z) - Leveraging World Model Disentanglement in Value-Based Multi-Agent
Reinforcement Learning [18.651307543537655]
本稿では,Distangled World Modelを用いた新しいモデルベースマルチエージェント強化学習手法であるValue Decomposition Frameworkを提案する。
本研究では,本手法が高サンプリング効率を実現し,敵軍を撃破する性能が他のベースラインよりも優れていることを示すために,簡単な,ハード,スーパーハードのStarCraft IIマイクロマネジメントの課題について実験的に検討した。
論文 参考訳(メタデータ) (2023-09-08T22:12:43Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。