論文の概要: Matrix-Game 2.0: An Open-Source, Real-Time, and Streaming Interactive World Model
- arxiv url: http://arxiv.org/abs/2508.13009v1
- Date: Mon, 18 Aug 2025 15:28:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.451863
- Title: Matrix-Game 2.0: An Open-Source, Real-Time, and Streaming Interactive World Model
- Title(参考訳): Matrix-Game 2.0 - オープンソース、リアルタイム、インタラクティブな世界モデル
- Authors: Xianglong He, Chunli Peng, Zexiang Liu, Boyang Wang, Yifan Zhang, Qi Cui, Fei Kang, Biao Jiang, Mengyin An, Yangyang Ren, Baixin Xu, Hao-Xiang Guo, Kaixiong Gong, Cyrus Wu, Wei Li, Xuchen Song, Yang Liu, Eric Li, Yahui Zhou,
- Abstract要約: Matrix-Game 2.0はインタラクティブな世界モデルで、数ステップの自己回帰拡散を通じて長時間の動画をオンザフライで生成する。
超高速25FPSで、さまざまなシーンで高品質のミニレベルビデオを生成することができる。
- 参考スコア(独自算出の注目度): 15.16063778402193
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in interactive video generations have demonstrated diffusion model's potential as world models by capturing complex physical dynamics and interactive behaviors. However, existing interactive world models depend on bidirectional attention and lengthy inference steps, severely limiting real-time performance. Consequently, they are hard to simulate real-world dynamics, where outcomes must update instantaneously based on historical context and current actions. To address this, we present Matrix-Game 2.0, an interactive world model generates long videos on-the-fly via few-step auto-regressive diffusion. Our framework consists of three key components: (1) A scalable data production pipeline for Unreal Engine and GTA5 environments to effectively produce massive amounts (about 1200 hours) of video data with diverse interaction annotations; (2) An action injection module that enables frame-level mouse and keyboard inputs as interactive conditions; (3) A few-step distillation based on the casual architecture for real-time and streaming video generation. Matrix Game 2.0 can generate high-quality minute-level videos across diverse scenes at an ultra-fast speed of 25 FPS. We open-source our model weights and codebase to advance research in interactive world modeling.
- Abstract(参考訳): 近年のインタラクティブビデオ世代の発展は、複雑な物理力学とインタラクティブな振る舞いを捉えることで、拡散モデルが世界モデルとしての可能性を示している。
しかし、既存の対話型世界モデルは双方向の注意と長い推論ステップに依存しており、リアルタイムのパフォーマンスを著しく制限している。
その結果、過去の状況や現在の行動に基づいて結果が即時に更新されなければならない現実世界のダイナミクスをシミュレートするのは困難である。
そこで本研究では,対話型ワールドモデルであるMatrix-Game 2.0を提案する。
本フレームワークは,(1)Unreal EngineとGTA5環境のためのスケーラブルなデータ生成パイプラインにより,多種多様な対話アノテーションを用いたビデオデータの大量(約1200時間)を効果的に生成する,(2)インタラクティブな条件としてフレームレベルのマウスとキーボード入力を可能にするアクションインジェクションモジュール,(3)リアルタイムおよびストリーミングビデオ生成のためのカジュアルなアーキテクチャに基づく数ステップの蒸留である。
Matrix Game 2.0は、25FPSの超高速速度で、さまざまなシーンで高品質のミニレベルビデオを生成することができる。
私たちはインタラクティブな世界モデリングの研究を進めるために、モデルの重みとコードベースをオープンソースにしています。
関連論文リスト
- Hunyuan-GameCraft: High-dynamic Interactive Game Video Generation with Hybrid History Condition [18.789597877579986]
Hunyuan-GameCraftは、ゲーム環境におけるハイダイナミックなインタラクティブなビデオ生成のための新しいフレームワークである。
アクション制御をきめ細かいものにするため,標準キーボードとマウス入力を共有カメラ表現空間に統合する。
本稿では,ゲームシーン情報を保存しながら,映像シーケンスを自動回帰的に拡張するハイブリッド履歴条件学習手法を提案する。
論文 参考訳(メタデータ) (2025-06-20T17:50:37Z) - VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。
新しい仮面融合はSAM2を双方向の点伝播に用いている。
The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文 参考訳(メタデータ) (2025-06-05T17:59:29Z) - Vid2World: Crafting Video Diffusion Models to Interactive World Models [38.270098691244314]
Vid2Worldは、トレーニング済みのビデオ拡散モデルをインタラクティブな世界モデルに活用し、転送するための一般的なアプローチである。
自己回帰生成を可能にするために、そのアーキテクチャとトレーニング目標を構築することにより、事前訓練されたビデオ拡散モデルのカジュアル化を行う。
対話型世界モデルにおける行動制御性を高めるための因果的行動誘導機構を導入する。
論文 参考訳(メタデータ) (2025-05-20T13:41:45Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。
我々の重要な洞察は、大規模なビデオ生成モデルは、大規模ビデオデータからインタラクティブなダイナミクスを学習し、ニューラルと暗黙の物理シミュレーターの両方として機能できるということです。
論文 参考訳(メタデータ) (2024-12-16T13:57:02Z) - Video2Game: Real-time, Interactive, Realistic and Browser-Compatible Environment from a Single Video [23.484070818399]
Video2Gameは、現実世界のシーンのビデオを自動的にリアルでインタラクティブなゲーム環境に変換する新しいアプローチである。
リアルタイムに高リアルなレンダリングを作成できるだけでなく、インタラクティブなゲームも構築できることが示されています。
論文 参考訳(メタデータ) (2024-04-15T14:32:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。