論文の概要: Hunyuan-GameCraft-2: Instruction-following Interactive Game World Model
- arxiv url: http://arxiv.org/abs/2511.23429v1
- Date: Fri, 28 Nov 2025 18:26:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:56.019587
- Title: Hunyuan-GameCraft-2: Instruction-following Interactive Game World Model
- Title(参考訳): Hunyuan-GameCraft-2: Instruction-following Interactive Game World Model
- Authors: Junshu Tang, Jiacheng Liu, Jiaqi Li, Longhuang Wu, Haoyu Yang, Penghao Zhao, Siruis Gong, Xiang Yuan, Shuai Shao, Qinglin Lu,
- Abstract要約: Hunyuan-GameCraft-2は生成ゲームワールドモデリングのための命令駆動インタラクションの新しいパラダイムである。
我々のモデルでは,自然言語のプロンプトやキーボード,マウスの信号を通じてゲーム映像のコンテンツを制御することができる。
本モデルでは,時間的コヒーレントかつ因果的な対話型ゲームビデオを生成する。
- 参考スコア(独自算出の注目度): 19.937724706042804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in generative world models have enabled remarkable progress in creating open-ended game environments, evolving from static scene synthesis toward dynamic, interactive simulation. However, current approaches remain limited by rigid action schemas and high annotation costs, restricting their ability to model diverse in-game interactions and player-driven dynamics. To address these challenges, we introduce Hunyuan-GameCraft-2, a new paradigm of instruction-driven interaction for generative game world modeling. Instead of relying on fixed keyboard inputs, our model allows users to control game video contents through natural language prompts, keyboard, or mouse signals, enabling flexible and semantically rich interaction within generated worlds. We formally defined the concept of interactive video data and developed an automated process to transform large-scale, unstructured text-video pairs into causally aligned interactive datasets. Built upon a 14B image-to-video Mixture-of-Experts(MoE) foundation model, our model incorporates a text-driven interaction injection mechanism for fine-grained control over camera motion, character behavior, and environment dynamics. We introduce an interaction-focused benchmark, InterBench, to evaluate interaction performance comprehensively. Extensive experiments demonstrate that our model generates temporally coherent and causally grounded interactive game videos that faithfully respond to diverse and free-form user instructions such as "open the door", "draw a torch", or "trigger an explosion".
- Abstract(参考訳): 近年の創造的世界モデルの発展により、静的シーン合成から動的インタラクティブなシミュレーションへと進化するオープンエンドゲーム環境の創出が目覚ましい進歩を遂げている。
しかし、現在のアプローチは厳密なアクションスキーマと高いアノテーションコストによって制限され、ゲーム内相互作用やプレイヤー駆動のダイナミクスをモデル化する能力が制限されている。
これらの課題に対処するために,生成ゲームワールドモデリングのための命令駆動インタラクションの新しいパラダイムであるHunyuan-GameCraft-2を紹介する。
我々のモデルは、固定されたキーボード入力に頼るのではなく、自然言語のプロンプト、キーボード、マウスの信号を通じてゲームビデオのコンテンツを制御し、生成された世界の中で柔軟で意味的にリッチな対話を可能にする。
我々は、対話型ビデオデータの概念を正式に定義し、大規模で非構造化のテキストビデオペアを因果的に整合した対話型データセットに変換する自動化プロセスを開発した。
本モデルでは,14B画像から映像への混合実験(Mixture-of-Experts:MoE)基礎モデルに基づいて,カメラモーション,キャラクタ動作,環境動態の微粒化制御のためのテキスト駆動インタラクションインジェクション機構を組み込んだ。
インタラクションパフォーマンスを総合的に評価するために,インタラクション中心のベンチマークであるInterBenchを導入する。
広範にわたる実験により,我々のモデルは,「ドアを開ける」「トーチを引っ張る」「爆発をトリガーする」といった多様な自由形式のユーザ指示に忠実に反応する,時間的に整合的で因果的に基礎付けられたインタラクティブなゲームビデオを生成することが示された。
関連論文リスト
- Matrix-Game 2.0: An Open-Source, Real-Time, and Streaming Interactive World Model [15.16063778402193]
Matrix-Game 2.0はインタラクティブな世界モデルで、数ステップの自己回帰拡散を通じて長時間の動画をオンザフライで生成する。
超高速25FPSで、さまざまなシーンで高品質のミニレベルビデオを生成することができる。
論文 参考訳(メタデータ) (2025-08-18T15:28:53Z) - Seamless Interaction: Dyadic Audiovisual Motion Modeling and Large-Scale Dataset [113.25650486482762]
4000時間以上の対面インタラクション映像の大規模な収集であるSeamless Interactionデータセットを紹介した。
このデータセットは、ダイドの具体的ダイナミクスを理解するAIテクノロジの開発を可能にする。
そこで我々は,このデータセットを用いて,人間の発話に適応した動作ジェスチャーと表情を生成するモデル群を開発した。
論文 参考訳(メタデータ) (2025-06-27T18:09:49Z) - Hunyuan-GameCraft: High-dynamic Interactive Game Video Generation with Hybrid History Condition [18.789597877579986]
Hunyuan-GameCraftは、ゲーム環境におけるハイダイナミックなインタラクティブなビデオ生成のための新しいフレームワークである。
アクション制御をきめ細かいものにするため,標準キーボードとマウス入力を共有カメラ表現空間に統合する。
本稿では,ゲームシーン情報を保存しながら,映像シーケンスを自動回帰的に拡張するハイブリッド履歴条件学習手法を提案する。
論文 参考訳(メタデータ) (2025-06-20T17:50:37Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。
我々の重要な洞察は、大規模なビデオ生成モデルは、大規模ビデオデータからインタラクティブなダイナミクスを学習し、ニューラルと暗黙の物理シミュレーターの両方として機能できるということです。
論文 参考訳(メタデータ) (2024-12-16T13:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。