論文の概要: MultiWorld: Scalable Multi-Agent Multi-View Video World Models
- arxiv url: http://arxiv.org/abs/2604.18564v2
- Date: Tue, 21 Apr 2026 06:41:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 14:04:47.955542
- Title: MultiWorld: Scalable Multi-Agent Multi-View Video World Models
- Title(参考訳): MultiWorld: スケーラブルなマルチエージェントマルチビュービデオワールドモデル
- Authors: Haoyu Wu, Jiwen Yu, Yingtian Zou, Xihui Liu,
- Abstract要約: マルチエージェント多視点世界モデリングのための統合フレームワークである textbfMultiWorld を提案する。
高精度なマルチエージェント制御を実現するためのマルチエージェント条件モジュールを提案する。
マルチプレイヤーゲーム環境とマルチロボット操作タスクの実験により、MultiWorldはビデオの忠実度、アクションフォロー能力、マルチビューの一貫性においてベースラインよりも優れていた。
- 参考スコア(独自算出の注目度): 36.970254855945484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video world models have achieved remarkable success in simulating environmental dynamics in response to actions by users or agents. They are modeled as action-conditioned video generation models that take historical frames and current actions as input to predict future frames. Yet, most existing approaches are limited to single-agent scenarios and fail to capture the complex interactions inherent in real-world multi-agent systems. We present \textbf{MultiWorld}, a unified framework for multi-agent multi-view world modeling that enables accurate control of multiple agents while maintaining multi-view consistency. We introduce the Multi-Agent Condition Module to achieve precise multi-agent controllability, and the Global State Encoder to ensure coherent observations across different views. MultiWorld supports flexible scaling of agent and view counts, and synthesizes different views in parallel for high efficiency. Experiments on multi-player game environments and multi-robot manipulation tasks demonstrate that MultiWorld outperforms baselines in video fidelity, action-following ability, and multi-view consistency. Project page: https://multi-world.github.io/
- Abstract(参考訳): ビデオワールドモデルは、ユーザやエージェントのアクションに反応して、環境力学をシミュレートすることに成功した。
これらは、過去のフレームと現在のアクションを入力として、将来のフレームを予測するアクション条件のビデオ生成モデルとしてモデル化されている。
しかし、既存のほとんどのアプローチは単一エージェントのシナリオに限られており、現実世界のマルチエージェントシステムに固有の複雑な相互作用を捉えることができない。
マルチエージェントの整合性を維持しつつ,複数のエージェントの正確な制御を可能にするマルチエージェントマルチビューワールドモデリングのための統合フレームワークである。
我々は,マルチエージェント制御性を実現するためのマルチエージェント条件モジュールと,異なる視点のコヒーレントな観測を確実にするためのグローバルステートエンコーダを導入する。
MultiWorldはエージェントとビューカウントの柔軟なスケーリングをサポートし、高い効率のために異なるビューを並列に合成する。
マルチプレイヤーゲーム環境とマルチロボット操作タスクの実験により、MultiWorldはビデオの忠実度、アクションフォロー能力、マルチビューの一貫性においてベースラインよりも優れていた。
プロジェクトページ:https://multi-world.github.io/
関連論文リスト
- ActionParty: Multi-Subject Action Binding in Generative Video Games [117.52562594944679]
ActionPartyは、ゲーム生成のための制御可能な多目的世界モデルである。
46の多様な環境において最大7人のプレイヤーを同時に制御できる最初のビデオワールドモデルを実証する。
論文 参考訳(メタデータ) (2026-04-02T17:59:58Z) - ShareVerse: Multi-Agent Consistent Video Generation for Shared World Modeling [16.27470663877285]
本稿では,マルチエージェント共有ワールドモデリングを実現するビデオ生成フレームワークであるShareVerseについて述べる。
CARLAシミュレーションプラットフォーム上に,大規模インタラクティブな世界モデリングのためのデータセットを構築した。
本研究では,より広い環境をモデル化する独立エージェントの4視点映像の空間結合戦略を提案する。
我々は,エージェント間の空間的時間情報の対話的伝達を可能にする,事前訓練されたビデオモデルにエージェント間注意ブロックを組み込む。
論文 参考訳(メタデータ) (2026-03-03T07:41:12Z) - Solaris: Building a Multiplayer Video World Model in Minecraft [25.935990718354176]
既存のアクション条件付きビデオ生成モデル(ビデオワールドモデル)は、単一エージェントの視点に限られる。
我々は,一貫したマルチビュー観測をシミュレートするマルチプレイヤービデオワールドモデルSolarisを紹介する。
我々は1264万のマルチプレイヤーフレームを収集し、マルチプレイヤー運動、メモリ、グラウンド、ビルディング、ビュー整合性の評価フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-25T18:59:01Z) - A Versatile Multimodal Agent for Multimedia Content Generation [66.86040734610073]
複雑なコンテンツ作成タスクの自動化を目的としたMultiMedia-Agentを提案する。
エージェントシステムには、データ生成パイプライン、コンテンツ作成のためのツールライブラリ、嗜好アライメントを評価するためのメトリクスセットが含まれている。
論文 参考訳(メタデータ) (2026-01-06T18:49:47Z) - MultiTSF: Transformer-based Sensor Fusion for Human-Centric Multi-view and Multi-modal Action Recognition [2.7745600113170994]
マルチモーダル・マルチビュー観測による行動認識は、監視、ロボティクス、スマート環境における応用において大きな可能性を秘めている。
マルチモーダルマルチビュー変換器を用いたセンサフュージョン(MultiTSF)を提案する。
提案手法はトランスフォーマーを用いて動的にビュー間の関係をモデル化し,複数のビューにまたがる時間的依存関係をキャプチャする。
論文 参考訳(メタデータ) (2025-04-03T05:04:05Z) - An Interactive Agent Foundation Model [49.77861810045509]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。
トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。
私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2024-02-08T18:58:02Z) - Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文 参考訳(メタデータ) (2022-06-16T07:47:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。