論文の概要: WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Modeling
- arxiv url: http://arxiv.org/abs/2512.14614v1
- Date: Tue, 16 Dec 2025 17:22:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.812936
- Title: WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Modeling
- Title(参考訳): WorldPlay: リアルタイムインタラクティブな世界モデリングのための長期幾何学的一貫性を目指して
- Authors: Wenqiang Sun, Haiyu Zhang, Haoyuan Wang, Junta Wu, Zehan Wang, Zhenwei Wang, Yunhong Wang, Jun Zhang, Tengfei Wang, Chunchao Guo,
- Abstract要約: WorldPlay(ワールドプレイ)は、リアルタイムでインタラクティブな世界モデリングと長期的幾何整合性を実現するストリーミングビデオ拡散モデルである。
ユーザのキーボードやマウスの入力に応答して,ロバストなアクション制御を可能にするために,デュアルアクション表現を使用する。
また,メモリ・アウェア・モデルのための新しい蒸留法であるContext Forcingを提案する。
- 参考スコア(独自算出の注目度): 34.486078065308995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents WorldPlay, a streaming video diffusion model that enables real-time, interactive world modeling with long-term geometric consistency, resolving the trade-off between speed and memory that limits current methods. WorldPlay draws power from three key innovations. 1) We use a Dual Action Representation to enable robust action control in response to the user's keyboard and mouse inputs. 2) To enforce long-term consistency, our Reconstituted Context Memory dynamically rebuilds context from past frames and uses temporal reframing to keep geometrically important but long-past frames accessible, effectively alleviating memory attenuation. 3) We also propose Context Forcing, a novel distillation method designed for memory-aware model. Aligning memory context between the teacher and student preserves the student's capacity to use long-range information, enabling real-time speeds while preventing error drift. Taken together, WorldPlay generates long-horizon streaming 720p video at 24 FPS with superior consistency, comparing favorably with existing techniques and showing strong generalization across diverse scenes. Project page and online demo can be found: https://3d-models.hunyuan.tencent.com/world/ and https://3d.hunyuan.tencent.com/sceneTo3D.
- Abstract(参考訳): 本稿では,リアルタイムでインタラクティブな世界モデリングを長時間の幾何整合性で実現し,現在の手法に制限のある速度とメモリのトレードオフを解消する,ストリーミングビデオ拡散モデルであるWorldPlayを提案する。
WorldPlayは3つの重要なイノベーションから力を引き出す。
1)デュアルアクション表現を用いて,ユーザのキーボードやマウス入力に応答して,ロバストなアクション制御を実現する。
2) 長期的整合性を実現するため, 再構成コンテキストメモリは, 過去のフレームから動的にコンテキストを再構築し, 時間的リフレーミングを用いて, 幾何学的に重要ではあるが, 長期的フレームのアクセス性を維持し, メモリ減衰を効果的に緩和する。
3)メモリ・アウェア・モデルのための新しい蒸留法であるContext Forcingを提案する。
教師と生徒の記憶コンテキストの調整は、学生が長距離情報を使用する能力を保持し、エラードリフトを防止しながらリアルタイムの速度を可能にする。
まとめると、WorldPlayは24FPSの長時間ストリーミング720pビデオを生成する。
プロジェクトページとオンラインデモは、https://3d-models.hunyuan.tencent.com/world/とhttps://3d.hunyuan.tencent.com/sceneTo3D。
関連論文リスト
- RELIC: Interactive Video World Model with Long-Horizon Memory [74.81433479334821]
真のインタラクティブな世界モデルは、リアルタイムの長距離ストリーミング、一貫した空間記憶、正確なユーザ制御を必要とする。
この3つの課題を完全に解決する統合フレームワークであるRELICを紹介します。
単一の画像とテキスト記述が与えられた後、RELICは任意のシーンをリアルタイムにメモリを意識した長期探索を可能にする。
論文 参考訳(メタデータ) (2025-12-03T18:29:20Z) - WorldPack: Compressed Memory Improves Spatial Consistency in Video World Modeling [42.52474988220278]
効率的な圧縮メモリを備えたビデオワールドモデルであるWorldPackを提案する。
WorldPackは、長期世代における空間的一貫性、忠実度、品質を著しく改善する。
パフォーマンスはMinecraftのベンチマークであるLoopNavで評価されています。
論文 参考訳(メタデータ) (2025-12-02T07:06:23Z) - MagicWorld: Interactive Geometry-driven Video World Exploration [30.475628938909242]
我々は、3次元幾何学的先行と歴史的検索を統合したインタラクティブなビデオワールドモデルMagicWorldを提案する。
本稿では,Action-Guided 3D Geometry Module (AG3D)を紹介した。
さらに、生成時に関連する履歴フレームを検索し、条件付き信号として注入するHistory Cache Retrieval (HCR) 機構を提案する。
論文 参考訳(メタデータ) (2025-11-24T08:41:28Z) - MotionStream: Real-Time Video Generation with Interactive Motion Controls [60.403597895657505]
単一GPU上で最大29FPSのストリーミング生成が可能なサブ秒レイテンシを実現するMotionStreamを提案する。
提案手法は,グローバルなテキストプロンプトとローカルなモーションガイダンスに準拠する高品質なビデオを生成するが,リアルタイムでは推論を行わないモーションコントロールによるテキスト・ツー・ビデオモデルの拡張から始まる。
我々のモデルでは、動きの追従と映像の質を2桁高速化し、無限長のストリーミングを可能にする。
論文 参考訳(メタデータ) (2025-11-03T06:37:53Z) - LONG3R: Long Sequence Streaming 3D Reconstruction [29.79885827038617]
Long3Rは、より長いシーケンス上でのマルチビュー3Dシーン再構成をストリーミングするために設計された新しいモデルである。
本モデルでは,新たな観測値の更新と更新を繰り返すことで,リアルタイム処理を実現している。
実験により、LONG3Rは、特に長いシーケンスにおいて、最先端のストリーミング手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-07-24T09:55:20Z) - VMem: Consistent Interactive Video Scene Generation with Surfel-Indexed View Memory [55.73900731190389]
Surfel-Indexed View Memory (VMem) は、過去のビューを記憶するメモリモジュールであり、それらが観測した3次元表面要素(サーフェル)に基づいて幾何学的にインデックス化することで、過去のビューを記憶する。
VMemは、新しいビューを生成する際に、最も関連性の高い過去のビューを効率的に検索することを可能にする。
論文 参考訳(メタデータ) (2025-06-23T17:59:56Z) - Video World Models with Long-term Spatial Memory [110.530715838396]
本稿では,ビデオワールドモデルの長期的整合性を高める新しい枠組みを提案する。
我々のフレームワークは、長期空間記憶から情報を保存・取得する機構を含んでいる。
評価の結果,関連するベースラインに比べて品質,一貫性,コンテキスト長が向上した。
論文 参考訳(メタデータ) (2025-06-05T17:42:34Z) - GTA: Global Temporal Attention for Video Action Understanding [51.476605514802806]
空間的注意を軸にグローバルな時間的注目を行うグローバルテンポラルアテンション(AGT:Global Temporal Attention)を分離的に紹介します。
2Dおよび3Dネットワーク上でのテストは、我々のアプローチが時間的モデリングを一貫して強化し、3つのビデオアクション認識データセットに対して最先端のパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2020-12-15T18:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。