論文の概要: Matrix-Game 2.0: An Open-Source, Real-Time, and Streaming Interactive World Model
- arxiv url: http://arxiv.org/abs/2508.13009v1
- Date: Mon, 18 Aug 2025 15:28:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.451863
- Title: Matrix-Game 2.0: An Open-Source, Real-Time, and Streaming Interactive World Model
- Title(参考訳): Matrix-Game 2.0 - オープンソース、リアルタイム、インタラクティブな世界モデル
- Authors: Xianglong He, Chunli Peng, Zexiang Liu, Boyang Wang, Yifan Zhang, Qi Cui, Fei Kang, Biao Jiang, Mengyin An, Yangyang Ren, Baixin Xu, Hao-Xiang Guo, Kaixiong Gong, Cyrus Wu, Wei Li, Xuchen Song, Yang Liu, Eric Li, Yahui Zhou,
- Abstract要約: Matrix-Game 2.0はインタラクティブな世界モデルで、数ステップの自己回帰拡散を通じて長時間の動画をオンザフライで生成する。
超高速25FPSで、さまざまなシーンで高品質のミニレベルビデオを生成することができる。
- 参考スコア(独自算出の注目度): 15.16063778402193
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in interactive video generations have demonstrated diffusion model's potential as world models by capturing complex physical dynamics and interactive behaviors. However, existing interactive world models depend on bidirectional attention and lengthy inference steps, severely limiting real-time performance. Consequently, they are hard to simulate real-world dynamics, where outcomes must update instantaneously based on historical context and current actions. To address this, we present Matrix-Game 2.0, an interactive world model generates long videos on-the-fly via few-step auto-regressive diffusion. Our framework consists of three key components: (1) A scalable data production pipeline for Unreal Engine and GTA5 environments to effectively produce massive amounts (about 1200 hours) of video data with diverse interaction annotations; (2) An action injection module that enables frame-level mouse and keyboard inputs as interactive conditions; (3) A few-step distillation based on the casual architecture for real-time and streaming video generation. Matrix Game 2.0 can generate high-quality minute-level videos across diverse scenes at an ultra-fast speed of 25 FPS. We open-source our model weights and codebase to advance research in interactive world modeling.
- Abstract(参考訳): 近年のインタラクティブビデオ世代の発展は、複雑な物理力学とインタラクティブな振る舞いを捉えることで、拡散モデルが世界モデルとしての可能性を示している。
しかし、既存の対話型世界モデルは双方向の注意と長い推論ステップに依存しており、リアルタイムのパフォーマンスを著しく制限している。
その結果、過去の状況や現在の行動に基づいて結果が即時に更新されなければならない現実世界のダイナミクスをシミュレートするのは困難である。
そこで本研究では,対話型ワールドモデルであるMatrix-Game 2.0を提案する。
本フレームワークは,(1)Unreal EngineとGTA5環境のためのスケーラブルなデータ生成パイプラインにより,多種多様な対話アノテーションを用いたビデオデータの大量(約1200時間)を効果的に生成する,(2)インタラクティブな条件としてフレームレベルのマウスとキーボード入力を可能にするアクションインジェクションモジュール,(3)リアルタイムおよびストリーミングビデオ生成のためのカジュアルなアーキテクチャに基づく数ステップの蒸留である。
Matrix Game 2.0は、25FPSの超高速速度で、さまざまなシーンで高品質のミニレベルビデオを生成することができる。
私たちはインタラクティブな世界モデリングの研究を進めるために、モデルの重みとコードベースをオープンソースにしています。
関連論文リスト
- TeleWorld: Towards Dynamic Multimodal Synthesis with a 4D World Model [53.555353366322464]
我々は,映像生成,動的シーン再構成,長期記憶をクローズドループシステム内で統合するリアルタイム多モード4DワールドモデリングフレームワークTeleWorldを提案する。
提案手法は,動的オブジェクトモデリングと静的シーン表現のシームレスな統合を実現し,現実的でインタラクティブで計算可能な合成システムに向けて世界モデルを推し進める。
論文 参考訳(メタデータ) (2025-12-31T18:31:46Z) - UniMo: Unifying 2D Video and 3D Human Motion with an Autoregressive Framework [54.337290937468175]
統合された枠組み内での2次元映像と3次元映像の協調モデリングのための自己回帰モデルUniMoを提案する。
本手法は,正確なモーションキャプチャを行いながら,対応する映像と動きを同時に生成することを示す。
論文 参考訳(メタデータ) (2025-12-03T16:03:18Z) - SpriteHand: Real-Time Versatile Hand-Object Interaction with Autoregressive Video Generation [64.3409486422946]
本研究では,手動インタラクションビデオのリアルタイム合成のための自動回帰ビデオ生成フレームワークSpriteHandを提案する。
我々のモデルは自己回帰生成のための因果推論アーキテクチャを採用し、視覚リアリズムと時間的コヒーレンスを高めるために学習後のハイブリッドアプローチを活用している。
実験は、生成的ベースラインとエンジンベースラインの両方と比較して、視覚的品質、物理的妥当性、相互作用の忠実さが優れていることを示した。
論文 参考訳(メタデータ) (2025-12-01T18:13:40Z) - Hunyuan-GameCraft-2: Instruction-following Interactive Game World Model [19.937724706042804]
Hunyuan-GameCraft-2は生成ゲームワールドモデリングのための命令駆動インタラクションの新しいパラダイムである。
我々のモデルでは,自然言語のプロンプトやキーボード,マウスの信号を通じてゲーム映像のコンテンツを制御することができる。
本モデルでは,時間的コヒーレントかつ因果的な対話型ゲームビデオを生成する。
論文 参考訳(メタデータ) (2025-11-28T18:26:39Z) - Simulating the Visual World with Artificial Intelligence: A Roadmap [48.64639618440864]
ビデオ生成は、視覚的に魅力的なクリップを生成するものから、インタラクションをサポートし、物理的な可視性を維持する仮想環境を構築するものへとシフトしている。
この調査は、この進化の体系的な概要を提供し、現代のビデオ基盤モデルを2つのコアコンポーネントの組み合わせとして概念化した。
4世代にわたる映像生成の進展を追究し,本質的な物理的妥当性を具現化した映像生成モデルを構築した。
論文 参考訳(メタデータ) (2025-11-11T18:59:50Z) - Hunyuan-GameCraft: High-dynamic Interactive Game Video Generation with Hybrid History Condition [18.789597877579986]
Hunyuan-GameCraftは、ゲーム環境におけるハイダイナミックなインタラクティブなビデオ生成のための新しいフレームワークである。
アクション制御をきめ細かいものにするため,標準キーボードとマウス入力を共有カメラ表現空間に統合する。
本稿では,ゲームシーン情報を保存しながら,映像シーケンスを自動回帰的に拡張するハイブリッド履歴条件学習手法を提案する。
論文 参考訳(メタデータ) (2025-06-20T17:50:37Z) - VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。
新しい仮面融合はSAM2を双方向の点伝播に用いている。
The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文 参考訳(メタデータ) (2025-06-05T17:59:29Z) - Vid2World: Crafting Video Diffusion Models to Interactive World Models [38.270098691244314]
Vid2Worldは、トレーニング済みのビデオ拡散モデルをインタラクティブな世界モデルに活用し、転送するための一般的なアプローチである。
自己回帰生成を可能にするために、そのアーキテクチャとトレーニング目標を構築することにより、事前訓練されたビデオ拡散モデルのカジュアル化を行う。
対話型世界モデルにおける行動制御性を高めるための因果的行動誘導機構を導入する。
論文 参考訳(メタデータ) (2025-05-20T13:41:45Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。
我々の重要な洞察は、大規模なビデオ生成モデルは、大規模ビデオデータからインタラクティブなダイナミクスを学習し、ニューラルと暗黙の物理シミュレーターの両方として機能できるということです。
論文 参考訳(メタデータ) (2024-12-16T13:57:02Z) - Video2Game: Real-time, Interactive, Realistic and Browser-Compatible Environment from a Single Video [23.484070818399]
Video2Gameは、現実世界のシーンのビデオを自動的にリアルでインタラクティブなゲーム環境に変換する新しいアプローチである。
リアルタイムに高リアルなレンダリングを作成できるだけでなく、インタラクティブなゲームも構築できることが示されています。
論文 参考訳(メタデータ) (2024-04-15T14:32:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。