論文の概要: GameGen-X: Interactive Open-world Game Video Generation
- arxiv url: http://arxiv.org/abs/2411.00769v1
- Date: Fri, 01 Nov 2024 17:59:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:43:23.114848
- Title: GameGen-X: Interactive Open-world Game Video Generation
- Title(参考訳): GameGen-X:インタラクティブなオープンワールドゲーム生成
- Authors: Haoxuan Che, Xuanhua He, Quande Liu, Cheng Jin, Hao Chen,
- Abstract要約: 我々は,オープンワールドゲームビデオの生成とインタラクティブ制御に特化して設計された,最初の拡散トランスフォーマーモデルであるGameGen-Xを紹介する。
革新的なキャラクター、動的環境、複雑なアクション、多様なイベントなど、一連のゲームエンジン機能をシミュレートする。
インタラクティブな制御性を提供し、現在のクリップに基づいたコンテンツの予測と将来的な変更を可能にし、ゲームプレイシミュレーションを可能にする。
- 参考スコア(独自算出の注目度): 10.001128258269675
- License:
- Abstract: We introduce GameGen-X, the first diffusion transformer model specifically designed for both generating and interactively controlling open-world game videos. This model facilitates high-quality, open-domain generation by simulating an extensive array of game engine features, such as innovative characters, dynamic environments, complex actions, and diverse events. Additionally, it provides interactive controllability, predicting and altering future content based on the current clip, thus allowing for gameplay simulation. To realize this vision, we first collected and built an Open-World Video Game Dataset from scratch. It is the first and largest dataset for open-world game video generation and control, which comprises over a million diverse gameplay video clips sampling from over 150 games with informative captions from GPT-4o. GameGen-X undergoes a two-stage training process, consisting of foundation model pre-training and instruction tuning. Firstly, the model was pre-trained via text-to-video generation and video continuation, endowing it with the capability for long-sequence, high-quality open-domain game video generation. Further, to achieve interactive controllability, we designed InstructNet to incorporate game-related multi-modal control signal experts. This allows the model to adjust latent representations based on user inputs, unifying character interaction and scene content control for the first time in video generation. During instruction tuning, only the InstructNet is updated while the pre-trained foundation model is frozen, enabling the integration of interactive controllability without loss of diversity and quality of generated video content.
- Abstract(参考訳): 我々は,オープンワールドゲームビデオの生成とインタラクティブ制御に特化して設計された,最初の拡散トランスフォーマーモデルであるGameGen-Xを紹介する。
このモデルは、革新的キャラクタ、動的環境、複雑なアクション、多様なイベントなど、幅広いゲームエンジンの機能をシミュレートすることで、高品質でオープンなドメイン生成を促進する。
さらに、インタラクティブな制御性を提供し、現在のクリップに基づいて将来のコンテンツを予測し、変更することで、ゲームプレイシミュレーションを可能にする。
このビジョンを実現するために、私たちはまずOpen-World Video Game Datasetをスクラッチから収集し、構築しました。
オープンワールドゲームビデオ生成と制御のための最初の、そして最大のデータセットであり、150以上のゲームから100万以上の多様なゲームプレイビデオクリップと、GPT-4oからの情報キャプションをサンプリングする。
GameGen-Xは、ファンデーションモデルの事前トレーニングとインストラクションチューニングからなる2段階のトレーニングプロセスを実行している。
第一に、このモデルはテキスト・ツー・ビデオ生成とビデオ継続によって事前訓練され、長いシーケンスで高品質なオープンドメインゲーム生成が可能になった。
さらに、インタラクティブな制御性を実現するために、ゲーム関連マルチモーダル制御信号の専門家を組み込むために、InstructNetを設計した。
これにより、ユーザ入力に基づいて遅延表現を調整し、キャラクタインタラクションを統一し、ビデオ生成において初めてシーンコンテンツ制御を行うことができる。
インストラクタチューニング中にのみインストラクタネットが更新され、事前トレーニングされた基礎モデルが凍結される。
関連論文リスト
- Unbounded: A Generative Infinite Game of Character Life Simulation [68.37260000219479]
生成モデルを用いて,有限なハードコードシステムの境界を超越したゲームである生成無限ゲームの概念を導入する。
我々は、生成AIの最近の進歩を活用して、生成モデルに完全にカプセル化されたキャラクターライフシミュレーションゲームUnboundedを作成する。
論文 参考訳(メタデータ) (2024-10-24T17:59:31Z) - WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - Enabling Visual Composition and Animation in Unsupervised Video Generation [42.475807996071175]
我々は、ビデオGEnerationのビジュアルコンポジションとアニメーションのために、私たちのモデルCAGEを呼ぶ。
我々は様々な環境でCAGEの機能を示す一連の実験を行った。
論文 参考訳(メタデータ) (2024-03-21T12:50:15Z) - VideoPoet: A Large Language Model for Zero-Shot Video Generation [78.57171527944774]
VideoPoetは、高品質なビデオと一致するオーディオを合成できる言語モデルである。
VideoPoetはマルチモーダル入力を処理するデコーダのみのトランスフォーマーアーキテクチャを採用している。
論文 参考訳(メタデータ) (2023-12-21T18:46:41Z) - Probabilistic Adaptation of Text-to-Video Models [181.84311524681536]
Video Adapterは、タスク固有の小さなビデオモデルに、幅広い知識を取り入れ、大きな事前訓練されたビデオモデルの忠実度を維持することができる。
Video Adapterは、アニメーション、エゴセントリックなモデリング、シミュレートされた実世界のロボティクスデータのモデリングなど、さまざまなタスクで高品質で特殊なビデオを生成することができる。
論文 参考訳(メタデータ) (2023-06-02T19:00:17Z) - Multi-Game Decision Transformers [49.257185338595434]
そこで本研究では,1つのトランスフォーマーモデルを用いて,最大46個のAtariゲーム群を,人間に近いパフォーマンスで同時にプレイ可能であることを示す。
オンラインやオフラインのRL手法や行動クローンなど,マルチゲーム設定におけるいくつかのアプローチを比較した。
マルチゲーム決定変換モデルは、最高のスケーラビリティとパフォーマンスを提供します。
論文 参考訳(メタデータ) (2022-05-30T16:55:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。