論文の概要: Yume: An Interactive World Generation Model
- arxiv url: http://arxiv.org/abs/2507.17744v1
- Date: Wed, 23 Jul 2025 17:57:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:15.120884
- Title: Yume: An Interactive World Generation Model
- Title(参考訳): Yume:インタラクティブなワールドジェネレーションモデル
- Authors: Xiaofeng Mao, Shaoheng Lin, Zhen Li, Chuanhao Li, Wenshuo Peng, Tong He, Jiangmiao Pang, Mingmin Chi, Yu Qiao, Kaipeng Zhang,
- Abstract要約: Yumeは、画像やテキスト、ビデオを使って対話的でリアルでダイナミックな世界を作る。
入力画像から動的世界を生成し、キーボードアクションを使って世界を探索することができる。
- 参考スコア(独自算出の注目度): 38.818537395166835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Yume aims to use images, text, or videos to create an interactive, realistic, and dynamic world, which allows exploration and control using peripheral devices or neural signals. In this report, we present a preview version of \method, which creates a dynamic world from an input image and allows exploration of the world using keyboard actions. To achieve this high-fidelity and interactive video world generation, we introduce a well-designed framework, which consists of four main components, including camera motion quantization, video generation architecture, advanced sampler, and model acceleration. First, we quantize camera motions for stable training and user-friendly interaction using keyboard inputs. Then, we introduce the Masked Video Diffusion Transformer~(MVDT) with a memory module for infinite video generation in an autoregressive manner. After that, training-free Anti-Artifact Mechanism (AAM) and Time Travel Sampling based on Stochastic Differential Equations (TTS-SDE) are introduced to the sampler for better visual quality and more precise control. Moreover, we investigate model acceleration by synergistic optimization of adversarial distillation and caching mechanisms. We use the high-quality world exploration dataset \sekai to train \method, and it achieves remarkable results in diverse scenes and applications. All data, codebase, and model weights are available on https://github.com/stdstu12/YUME. Yume will update monthly to achieve its original goal. Project page: https://stdstu12.github.io/YUME-Project/.
- Abstract(参考訳): Yumeは、画像やテキスト、ビデオを使ってインタラクティブでリアルでダイナミックな世界を作り、周辺機器や神経信号を使った探索と制御を可能にする。
本稿では,入力画像から動的世界を生成し,キーボード動作による世界探索を可能にする,Shamethodのプレビュー版を提案する。
この高忠実でインタラクティブなビデオワールドジェネレーションを実現するために、カメラモーション量子化、ビデオ生成アーキテクチャ、高度なサンプリング器、モデルアクセラレーションを含む4つの主要コンポーネントからなる、よく設計されたフレームワークを導入する。
まず、キーボード入力を用いた安定したトレーニングとユーザフレンドリーなインタラクションのためのカメラモーションの定量化を行う。
次に,Musked Video Diffusion Transformer~(MVDT)を,自己回帰的に無限のビデオ生成のためのメモリモジュールとして導入する。
その後、学習不要なアンチアーティファクトメカニズム(AAM)と確率微分方程式(TTS-SDE)に基づくタイムトラベルサンプリング(Time Travel Smpling)を導入し、より視覚的品質とより正確な制御を行う。
さらに, 逆蒸留とキャッシング機構の相乗最適化によるモデル加速について検討した。
高品質な世界探査データセット「セカイ」を用いて「メソド」を訓練し、様々な場面や応用において顕著な結果をもたらす。
すべてのデータ、コードベース、モデルウェイトはhttps://github.com/stdstu12/YUMEで入手できる。
Yumeは、最初の目標を達成するために毎月更新する。
プロジェクトページ: https://stdstu12.github.io/YUME-Project/。
関連論文リスト
- Learning Real-World Action-Video Dynamics with Heterogeneous Masked Autoregression [23.99292102237088]
本稿では,アクション・ビデオ・ダイナミックスをモデル化するためのヘテロジニアス・マスケッド・オートレグレス(HMA)を提案する。
ポストトレーニング後、このモデルは、ポリシーを評価し、合成データを生成するためのビデオシミュレータとして使用できる。
論文 参考訳(メタデータ) (2025-02-06T18:38:26Z) - InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。
我々の重要な洞察は、大規模なビデオ生成モデルは、大規模ビデオデータからインタラクティブなダイナミクスを学習し、ニューラルと暗黙の物理シミュレーターの両方として機能できるということです。
論文 参考訳(メタデータ) (2024-12-16T13:57:02Z) - Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics [67.97235923372035]
本稿では,対話型ビデオ生成モデルであるPuppet-Masterについて紹介する。
テスト時には、ひとつのイメージと粗い動き軌跡が与えられた場合、Puppet-Masterは、与えられたドラッグ操作に忠実な現実的な部分レベルの動きを描写したビデオを合成することができる。
論文 参考訳(メタデータ) (2024-08-08T17:59:38Z) - Learn the Force We Can: Enabling Sparse Motion Control in Multi-Object
Video Generation [26.292052071093945]
単一のフレームとスパース動作入力からビデオを生成する教師なしの手法を提案する。
我々の訓練されたモデルは、目に見えない現実的なオブジェクト間相互作用を生成できる。
ヨダは、制御性と映像品質の両面において、先行するアートビデオ生成の状況と同等かそれ以上であることを示す。
論文 参考訳(メタデータ) (2023-06-06T19:50:02Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。