論文の概要: MetaWorld: Scaling Multi-Agent Video World Model from Single-view Video Data
- arxiv url: http://arxiv.org/abs/2606.02753v1
- Date: Mon, 01 Jun 2026 18:20:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.533611
- Title: MetaWorld: Scaling Multi-Agent Video World Model from Single-view Video Data
- Title(参考訳): MetaWorld:シングルビュービデオデータによるマルチエージェントビデオワールドモデルのスケーリング
- Authors: Teng Hu, Mingchun Lu, Yating Wang, Jiangning Zhang, Jinkun Hao, Ye Pan, Ran Yi, Lizhuang Ma, Dacheng Tao,
- Abstract要約: MetaWorldは、マルチエージェントビデオワールドモデルをシングルビュービデオから直接オープンドメイン環境にスケールする新しいフレームワークである。
クロスビューの一貫性とアイデンティティの整合性を向上し、マルチエージェントビデオワールドモデリングのための高度にスケーラブルで物理駆動のパラダイムを確立する。
- 参考スコア(独自算出の注目度): 125.43597497646444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video world models are a foundational generative technology for embodied AI and the Metaverse, yet existing approaches are inherently limited to a single agent observing from a single perspective. Extending these models to multi-agent settings introduces two critical challenges: data scarcity (coordinated multi-view recordings are prohibitively expensive to collect for general open-domain scenarios) and world state alignment (independently generated video streams cannot ensure that shared physical environments and events evolve consistently across views). To address these challenges, we propose MetaWorld, a novel framework that scales multi-agent video world models to open-domain environments directly from single-view videos. First, we introduce Monocular World-State Unrolling (MWSU) to explicitly decompose monocular footage into the camera operator's ego-motion and the visible subject's spatial trajectory. This camera-trajectory decomposition naturally extracts synchronized multi-agent motion data within a shared 3D space, completely bypassing the need for multi-camera setups. Second, for precise visual control, we develop the Subject-Aware World Generator to enable appearance-driven simulation conditioned on per-agent identity images. Finally, to ensure both views are grounded in the identical physical reality, we propose World-State Alignment, a per-frame inter-branch cross-attention mechanism inserted at every transformer layer of the video DiT. By jointly synchronizing the denoising process, WSA enforces both static geometric consistency and dynamic motion consistency, encouraging that the shared 3D environment and physical events remain well-aligned across both egocentric views. Extensive experiments demonstrate that MetaWorld achieves superior cross-view consistency and identity fidelity, establishing a highly scalable, physics-driven paradigm for multi-agent video world modeling.
- Abstract(参考訳): ビデオワールドモデルは、AIとメタバースを具現化するための基礎的な生成技術であるが、既存のアプローチは本質的に単一の視点から観察する単一のエージェントに限られている。
これらのモデルをマルチエージェント設定に拡張することは、データの不足(一般的なオープンドメインシナリオのために収集する上で、コーディネートされたマルチビュー記録は違法にコストがかかる)とワールドステートアライメント(独立して生成されたビデオストリームは、ビュー間で共有された物理的環境とイベントが一貫した進化を保証できない)という、2つの重要な課題をもたらす。
これらの課題に対処するために,マルチエージェントビデオワールドモデルをシングルビュービデオから直接オープンドメイン環境に拡張する新しいフレームワークであるMetaWorldを提案する。
まず,モノクラー・ワールド・ステート・アンロール(MWSU)を導入し,モノクラー映像をカメラ操作者のエゴモーションと視認対象者の空間軌跡に明示的に分解する。
このカメラ軌道分解は、共有された3次元空間内の同期されたマルチエージェントモーションデータを自然に抽出し、マルチカメラ設定の必要性を完全に回避する。
第2に、正確な視覚制御のために、エージェントごとの識別画像に条件付けされた外観駆動型シミュレーションを可能にするサブジェクト・アウェア・ワールド・ジェネレータを開発する。
最後に、両ビューが同一の物理的現実に基礎を置いていることを保証するため、ビデオDiTの各トランスフォーマー層に挿入されるフレーム単位のブランチ間クロスアテンション機構であるWorld-State Alignmentを提案する。
復調過程を協調的に同期させることで、WSAは静的な幾何的一貫性と動的動きの整合性の両方を強制し、共有された3D環境と物理的事象が両自我中心の視点で適切に一致し続けることを奨励する。
大規模な実験により、MetaWorldは優れたクロスビュー一貫性とアイデンティティの忠実さを実現し、マルチエージェントビデオワールドモデリングのための高度にスケーラブルで物理駆動のパラダイムを確立した。
関連論文リスト
- Embody4D: A Generalist 4D World Model for Embodied AI [13.488596291534243]
Embody4Dは、エンボディされたシナリオのための専用ビデオからビデオの世界モデルである。
モノクロビデオから任意の新しいビューを再生することができる。
最先端のパフォーマンスを実現し、堅牢な世界モデルとして機能する。
論文 参考訳(メタデータ) (2026-05-03T09:39:44Z) - VideoWeaver: Multimodal Multi-View Video-to-Video Transfer for Embodied Agents [17.66237759970927]
VideoWeaverは、最初のマルチモーダルマルチビューV2V翻訳フレームワークである。
我々は、異なる拡散時間ステップでビューを訓練し、モデルがジョイントとコンディショナルの両方のビュー分布を学習できるようにする。
実験では、単一ビューの翻訳ベンチマークにおける最先端の性能よりも優れているか類似した性能を示す。
論文 参考訳(メタデータ) (2026-03-26T13:14:13Z) - MVHOI: Bridge Multi-view Condition to Complex Human-Object Interaction Video Reenactment via 3D Foundation Model [83.12400850233034]
人間と物体の相互作用(Human-Object Interaction,HOI)ビデオのリアルな動きによる再現は、デジタル人間の創造のフロンティアである。
マルチビュー参照条件とビデオ基盤モデルをブリッジする2段階のHOIビデオ再現フレームワークであるMVHOIを提案する。
本フレームワークは,複雑なオブジェクト操作による長期HOIビデオの生成において,優れた性能を示す。
論文 参考訳(メタデータ) (2026-03-16T00:43:38Z) - RAYNOVA: Scale-Temporal Autoregressive World Modeling in Ray Space [51.441415833480505]
RAYNOVAは、二重因果自己回帰フレームワークを使用するシナリオを駆動するための多視点世界モデルである。
相対的なシャーカー線位置符号化に基づいて、ビュー、フレーム、スケールにまたがる等方的時間的表現を構築する。
論文 参考訳(メタデータ) (2026-02-24T08:41:40Z) - TeleWorld: Towards Dynamic Multimodal Synthesis with a 4D World Model [53.555353366322464]
我々は,映像生成,動的シーン再構成,長期記憶をクローズドループシステム内で統合するリアルタイム多モード4DワールドモデリングフレームワークTeleWorldを提案する。
提案手法は,動的オブジェクトモデリングと静的シーン表現のシームレスな統合を実現し,現実的でインタラクティブで計算可能な合成システムに向けて世界モデルを推し進める。
論文 参考訳(メタデータ) (2025-12-31T18:31:46Z) - IC-World: In-Context Generation for Shared World Modeling [61.69655562995357]
ビデオベースの世界モデルは、多様でダイナミックな視覚環境を合成する能力に注目が集まっている。
本稿では,モデルが入力画像の集合から複数のビデオを生成し,それぞれが異なるカメラポーズで同じ世界を表す共有世界モデリングに焦点を当てる。
入力画像の並列生成を可能にする新しい生成フレームワークであるIC-Worldを提案する。
論文 参考訳(メタデータ) (2025-12-01T16:52:02Z) - Towards High-Consistency Embodied World Model with Multi-View Trajectory Videos [24.111891848073288]
身体的世界モデルは、視覚的な観察と行動を通じて物理的世界と予測し、相互作用することを目的としている。
MTV-Worldは正確なビジュモータ予測のためのマルチビュートラジェクトリ・ビデオ制御を導入した。
MTV-Worldは、複雑なデュアルアームシナリオにおける正確な制御実行と正確な物理的相互作用モデリングを実現する。
論文 参考訳(メタデータ) (2025-11-17T02:17:04Z) - ERMV: Editing 4D Robotic Multi-view images to enhance embodied agents [14.75400720374728]
ERMV(Robotic Multi-View 4D data framework)は、単一フレームの編集とロボットの状態条件に基づいて、全マルチビューシーケンスを効率的に編集する。
創発されたデータは、シミュレーションと実世界の両方の環境でモデルの堅牢性とガイダンスを著しく向上させる。
論文 参考訳(メタデータ) (2025-07-23T12:41:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。