論文の概要: Matrix-Game: Interactive World Foundation Model
- arxiv url: http://arxiv.org/abs/2506.18701v1
- Date: Mon, 23 Jun 2025 14:40:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:37.029449
- Title: Matrix-Game: Interactive World Foundation Model
- Title(参考訳): Matrix-Game:インタラクティブワールドファウンデーションモデル
- Authors: Yifan Zhang, Chunli Peng, Boyang Wang, Puyi Wang, Qingcheng Zhu, Fei Kang, Biao Jiang, Zedong Gao, Eric Li, Yang Liu, Yahui Zhou,
- Abstract要約: Matrix-Gameは、制御可能なゲームワールドジェネレーションのためのインタラクティブなワールドファンデーションモデルである。
本モデルでは,参照画像,動作コンテキスト,ユーザアクションを条件とした,制御可能な画像から世界への生成パラダイムを採用している。
17億以上のパラメータを持つMatrix-Gameは、キャラクタアクションとカメラの動きを正確に制御できる。
- 参考スコア(独自算出の注目度): 11.144250200432458
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Matrix-Game, an interactive world foundation model for controllable game world generation. Matrix-Game is trained using a two-stage pipeline that first performs large-scale unlabeled pretraining for environment understanding, followed by action-labeled training for interactive video generation. To support this, we curate Matrix-Game-MC, a comprehensive Minecraft dataset comprising over 2,700 hours of unlabeled gameplay video clips and over 1,000 hours of high-quality labeled clips with fine-grained keyboard and mouse action annotations. Our model adopts a controllable image-to-world generation paradigm, conditioned on a reference image, motion context, and user actions. With over 17 billion parameters, Matrix-Game enables precise control over character actions and camera movements, while maintaining high visual quality and temporal coherence. To evaluate performance, we develop GameWorld Score, a unified benchmark measuring visual quality, temporal quality, action controllability, and physical rule understanding for Minecraft world generation. Extensive experiments show that Matrix-Game consistently outperforms prior open-source Minecraft world models (including Oasis and MineWorld) across all metrics, with particularly strong gains in controllability and physical consistency. Double-blind human evaluations further confirm the superiority of Matrix-Game, highlighting its ability to generate perceptually realistic and precisely controllable videos across diverse game scenarios. To facilitate future research on interactive image-to-world generation, we will open-source the Matrix-Game model weights and the GameWorld Score benchmark at https://github.com/SkyworkAI/Matrix-Game.
- Abstract(参考訳): 制御可能なゲームワールドジェネレーションのための対話型ワールドファンデーションモデルであるMatrix-Gameを紹介する。
Matrix-Gameは2段階のパイプラインを使用してトレーニングされ、まず環境理解のために大規模な未ラベル事前トレーニングを行い、次にインタラクティブなビデオ生成のためのアクションラベルトレーニングを行う。
Matrix-Game-MCは、2700時間以上の未ラベルのゲームプレイビデオクリップと1,000時間以上の高品質なラベル付きクリップと、きめ細かいキーボードとマウスアクションアノテーションからなる包括的なMinecraftデータセットである。
本モデルでは,参照画像,動作コンテキスト,ユーザアクションを条件とした,制御可能な画像から世界への生成パラダイムを採用している。
17億以上のパラメータを持つMatrix-Gameは、高い視覚的品質と時間的コヒーレンスを維持しながら、キャラクタアクションとカメラの動きを正確に制御できる。
ゲームワールドスコア(GameWorld Score)は,視覚的品質,時間的品質,動作制御性,およびマインクラフト世界生成のための物理ルール理解を計測する統合ベンチマークである。
大規模な実験によると、Matrix-Gameは、すべてのメトリクスで、オープンソースのMinecraftワールドモデル(OasisやMineWorldを含む)を一貫して上回り、コントロール性と物理的な一貫性が特に高い。
二重盲検による人間の評価はMatrix-Gameの優位性をさらに確認し、様々なゲームシナリオで知覚的にリアルで正確に制御可能なビデオを生成する能力を強調している。
インタラクティブなイメージ・ツー・ワールド・ジェネレーションの今後の研究を促進するため、Matrix-GameモデルウェイトとGameWorld Scoreベンチマークをhttps://github.com/SkyworkAI/Matrix-Gameでオープンソース化する。
関連論文リスト
- PlayerOne: Egocentric World Simulator [73.88786358213694]
PlayerOneは、最初のエゴセントリックなリアルワールドシミュレータである。
それは、エゴセントリックなビデオを生成し、エゴセントリックなカメラで捉えたユーザーの実際のシーンの人間の動きと厳密に一致している。
論文 参考訳(メタデータ) (2025-06-11T17:59:53Z) - MineWorld: a Real-Time and Open-Source Interactive World Model on Minecraft [21.530000271719803]
我々はMinecraft上でリアルタイムインタラクティブな世界モデルであるMineWorldを提案する。
MineWorldはビジュアルアクション自動回帰トランスフォーマーによって駆動され、ペア化されたゲームシーンと対応するアクションを入力として取り込む。
本研究では,各フレームの空間的冗長トークンを同時に予測する並列デコーディングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-04-11T09:41:04Z) - GEM: A Generalizable Ego-Vision Multimodal World Model for Fine-Grained Ego-Motion, Object Dynamics, and Scene Composition Control [122.65089441381741]
一般化可能なエゴビジョン・マルチモーダル世界モデルであるGEMについて述べる。
参照フレーム、スパース機能、人間のポーズ、エゴ軌道を使って将来のフレームを予測する。
私たちのデータセットは、自律運転、エゴセントリックな人間活動、ドローン飛行など、複数の領域にまたがる4000時間以上のマルチモーダルデータで構成されています。
論文 参考訳(メタデータ) (2024-12-15T14:21:19Z) - From an Image to a Scene: Learning to Imagine the World from a Million 360 Videos [71.22810401256234]
オブジェクトやシーンの3次元理解は、人間が世界と対話する能力において重要な役割を果たす。
大規模合成およびオブジェクト中心の3Dデータセットは、オブジェクトの3D理解を持つモデルのトレーニングに有効であることが示されている。
我々は360-1M、360度ビデオデータセット、およびスケールの多様な視点から対応するフレームを効率的に見つけるプロセスを紹介した。
論文 参考訳(メタデータ) (2024-12-10T18:59:44Z) - The Matrix: Infinite-Horizon World Generation with Real-Time Moving Control [16.075784652681172]
The Matrixは、連続した720pのリアルタイム映像ストリームを生成することができる最初の基礎的現実的世界シミュレータである。
Matrixは、ユーザーが連続して1時間連続で様々な地形を横断することを可能にする。
Matrixは、BMW X3がオフィス設定で運転する環境をシミュレートすることができる。
論文 参考訳(メタデータ) (2024-12-04T18:59:05Z) - GameGen-X: Interactive Open-world Game Video Generation [10.001128258269675]
我々は,オープンワールドゲームビデオの生成とインタラクティブ制御に特化して設計された,最初の拡散トランスフォーマーモデルであるGameGen-Xを紹介する。
革新的なキャラクター、動的環境、複雑なアクション、多様なイベントなど、一連のゲームエンジン機能をシミュレートする。
インタラクティブな制御性を提供し、現在のクリップに基づいたコンテンツの予測と将来的な変更を可能にし、ゲームプレイシミュレーションを可能にする。
論文 参考訳(メタデータ) (2024-11-01T17:59:17Z) - Learning Interactive Real-World Simulators [96.5991333400566]
生成モデルを用いて実世界の相互作用の普遍的なシミュレータを学習する可能性について検討する。
シミュレーターを用いて、高レベルな視覚言語ポリシーと低レベルな強化学習ポリシーの両方を訓練する。
ビデオキャプションモデルは、シミュレートされた経験を持つトレーニングの恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-10-09T19:42:22Z) - UniCon: Universal Neural Controller For Physics-based Character Motion [70.45421551688332]
大規模動作データセットから学習することで,異なるスタイルで数千の動作を習得する物理ベースのユニバーサルニューラルコントローラ(UniCon)を提案する。
UniConは、キーボード駆動制御をサポートし、ロコモーションとアクロバティックスキルの大きなプールから引き出されたモーションシーケンスを作成し、ビデオで撮影した人を物理ベースの仮想アバターにテレポートする。
論文 参考訳(メタデータ) (2020-11-30T18:51:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。