論文の概要: TeleWorld: Towards Dynamic Multimodal Synthesis with a 4D World Model
- arxiv url: http://arxiv.org/abs/2601.00051v1
- Date: Wed, 31 Dec 2025 18:31:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.234313
- Title: TeleWorld: Towards Dynamic Multimodal Synthesis with a 4D World Model
- Title(参考訳): TeleWorld: 4次元世界モデルによる動的マルチモーダル合成を目指して
- Authors: Yabo Chen, Yuanzhi Liang, Jiepeng Wang, Tingxi Chen, Junfei Cheng, Zixiao Gu, Yuyang Huang, Zicheng Jiang, Wei Li, Tian Li, Weichen Li, Zuoxin Li, Guangce Liu, Jialun Liu, Junqi Liu, Haoyuan Wang, Qizhen Weng, Xuan'er Wu, Xunzhi Xiang, Xiaoyan Yang, Xin Zhang, Shiwen Zhang, Junyu Zhou, Chengcheng Zhou, Haibin Huang, Chi Zhang, Xuelong Li,
- Abstract要約: 我々は,映像生成,動的シーン再構成,長期記憶をクローズドループシステム内で統合するリアルタイム多モード4DワールドモデリングフレームワークTeleWorldを提案する。
提案手法は,動的オブジェクトモデリングと静的シーン表現のシームレスな統合を実現し,現実的でインタラクティブで計算可能な合成システムに向けて世界モデルを推し進める。
- 参考スコア(独自算出の注目度): 53.555353366322464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World models aim to endow AI systems with the ability to represent, generate, and interact with dynamic environments in a coherent and temporally consistent manner. While recent video generation models have demonstrated impressive visual quality, they remain limited in real-time interaction, long-horizon consistency, and persistent memory of dynamic scenes, hindering their evolution into practical world models. In this report, we present TeleWorld, a real-time multimodal 4D world modeling framework that unifies video generation, dynamic scene reconstruction, and long-term world memory within a closed-loop system. TeleWorld introduces a novel generation-reconstruction-guidance paradigm, where generated video streams are continuously reconstructed into a dynamic 4D spatio-temporal representation, which in turn guides subsequent generation to maintain spatial, temporal, and physical consistency. To support long-horizon generation with low latency, we employ an autoregressive diffusion-based video model enhanced with Macro-from-Micro Planning (MMPL)--a hierarchical planning method that reduces error accumulation from frame-level to segment-level-alongside efficient Distribution Matching Distillation (DMD), enabling real-time synthesis under practical computational budgets. Our approach achieves seamless integration of dynamic object modeling and static scene representation within a unified 4D framework, advancing world models toward practical, interactive, and computationally accessible systems. Extensive experiments demonstrate that TeleWorld achieves strong performance in both static and dynamic world understanding, long-term consistency, and real-time generation efficiency, positioning it as a practical step toward interactive, memory-enabled world models for multimodal generation and embodied intelligence.
- Abstract(参考訳): 世界モデルは、コヒーレントで時間的に一貫した方法で動的環境を表現、生成、相互作用する能力を持つAIシステムの実現を目指している。
最近のビデオ生成モデルは印象的な視覚的品質を示しているが、リアルタイムの相互作用、長い水平の一貫性、ダイナミックなシーンの永続的な記憶に限られており、現実的な世界モデルへの進化を妨げる。
本稿では,映像生成,動的シーン再構成,長期記憶をクローズドループシステム内で統合するリアルタイム多モード4DワールドモデリングフレームワークであるTeleWorldについて述べる。
TeleWorldは、生成したビデオストリームを動的4D時空間表現に継続的に再構成し、空間的、時間的、物理的整合性を維持するためにその後の世代をガイドする、新しい世代再構成誘導パラダイムを導入している。
低レイテンシで長軸生成を実現するために,マクロからマイクロプランニング(MMPL)により拡張された自己回帰拡散に基づくビデオモデルを用いる。
提案手法は,動的オブジェクトモデリングと静的シーン表現のシームレスな統合を実現し,現実的でインタラクティブで計算可能なシステムに向けて世界モデルを推し進める。
大規模な実験により、TeleWorldは、静的および動的世界理解、長期的一貫性、およびリアルタイム生成効率において強力な性能を達成し、マルチモーダル生成と具体的インテリジェンスのためのインタラクティブなメモリ対応世界モデルに向けた実践的なステップとして位置づけられている。
関連論文リスト
- IC-World: In-Context Generation for Shared World Modeling [61.69655562995357]
ビデオベースの世界モデルは、多様でダイナミックな視覚環境を合成する能力に注目が集まっている。
本稿では,モデルが入力画像の集合から複数のビデオを生成し,それぞれが異なるカメラポーズで同じ世界を表す共有世界モデリングに焦点を当てる。
入力画像の並列生成を可能にする新しい生成フレームワークであるIC-Worldを提案する。
論文 参考訳(メタデータ) (2025-12-01T16:52:02Z) - OmniWorld: A Multi-Domain and Multi-Modal Dataset for 4D World Modeling [86.12242953301121]
我々は,4次元世界モデリングに特化した大規模マルチドメインマルチモーダルデータセットであるOmniWorldを紹介した。
既存の合成データセットと比較して、OmniWorld-Gameはよりリッチなモダリティカバレッジ、より大きなスケール、より現実的な動的インタラクションを提供する。
我々は、複雑な4D環境のモデリングにおいて、現在の最先端(SOTA)アプローチの限界を明らかにするための挑戦的なベンチマークを確立する。
論文 参考訳(メタデータ) (2025-09-15T17:59:19Z) - Learning Primitive Embodied World Models: Towards Scalable Robotic Learning [50.32986780156215]
我々は,世界モデリングのための新しいパラダイム--Primitive Embodied World Models (PEWM)を提案する。
ビデオ生成を固定的な短地平線に制限することにより,ロボット行動の言語概念と視覚的表現の微妙なアライメントを可能にする。
我々のフレームワークは、きめ細かい物理的相互作用と高レベルの推論のギャップを埋め、スケーラブルで解釈可能で汎用的なインテリジェンスへの道を開く。
論文 参考訳(メタデータ) (2025-08-28T14:31:48Z) - Learning World Models for Interactive Video Generation [20.793871778030113]
我々は、アクションコンディショニングと自動回帰フレームワークにより、インタラクティブな機能を備えた映像間モデルを強化する。
そこで本稿では, 長期のコンプレックスエラーを著しく低減するグローバルな条件付きビデオ検索拡張生成(VRAG)を提案する。
我々の研究は、内部世界モデリング機能を備えたビデオ生成モデルを改善するための包括的なベンチマークを確立する。
論文 参考訳(メタデータ) (2025-05-28T05:55:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。