論文の概要: INSPATIO-WORLD: A Real-Time 4D World Simulator via Spatiotemporal Autoregressive Modeling
- arxiv url: http://arxiv.org/abs/2604.07209v1
- Date: Wed, 08 Apr 2026 15:31:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.610788
- Title: INSPATIO-WORLD: A Real-Time 4D World Simulator via Spatiotemporal Autoregressive Modeling
- Title(参考訳): INSPATIO-WORLD:時空間自己回帰モデルによる実時間4次元世界シミュレータ
- Authors: InSpatio Team, Donghui Shen, Guofeng Zhang, Haomin Liu, Haoyu Ji, Hujun Bao, Hongjia Zhai, Jialin Liu, Jing Guo, Nan Wang, Siji Pan, Weihong Pan, Weijian Xie, Xianbin Liu, Xiaojun Xiang, Xiaoyu Zhang, Xinyu Chen, Yifu Wang, Yipeng Chen, Zhenzhou Fan, Zhewen Le, Zhichao Ye, Ziqiang Zhao,
- Abstract要約: INSPATIO-WORLDは、単一のビデオから高忠実なインタラクティブなシーンを復元し、生成できる新しいリアルタイムフレームワークである。
Implicit Spatiotemporal Cacheは参照と過去の観測結果を潜在世界表現に集約する。
Explicit Space Constraint Moduleは幾何学的構造を強制し、ユーザのインタラクションを正確かつ物理的に可視なカメラ軌道に変換する。
- 参考スコア(独自算出の注目度): 44.09983529522167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building world models with spatial consistency and real-time interactivity remains a fundamental challenge in computer vision. Current video generation paradigms often struggle with a lack of spatial persistence and insufficient visual realism, making it difficult to support seamless navigation in complex environments. To address these challenges, we propose INSPATIO-WORLD, a novel real-time framework capable of recovering and generating high-fidelity, dynamic interactive scenes from a single reference video. At the core of our approach is a Spatiotemporal Autoregressive (STAR) architecture, which enables consistent and controllable scene evolution through two tightly coupled components: Implicit Spatiotemporal Cache aggregates reference and historical observations into a latent world representation, ensuring global consistency during long-horizon navigation; Explicit Spatial Constraint Module enforces geometric structure and translates user interactions into precise and physically plausible camera trajectories. Furthermore, we introduce Joint Distribution Matching Distillation (JDMD). By using real-world data distributions as a regularizing guide, JDMD effectively overcomes the fidelity degradation typically caused by over-reliance on synthetic data. Extensive experiments demonstrate that INSPATIO-WORLD significantly outperforms existing state-of-the-art (SOTA) models in spatial consistency and interaction precision, ranking first among real-time interactive methods on the WorldScore-Dynamic benchmark, and establishing a practical pipeline for navigating 4D environments reconstructed from monocular videos.
- Abstract(参考訳): 空間的一貫性とリアルタイムの対話性を備えた世界モデルの構築は、コンピュータビジョンにおける根本的な課題である。
現在のビデオ生成パラダイムは、空間的持続性の欠如と視覚的リアリズムの欠如に悩まされることが多く、複雑な環境でシームレスなナビゲーションをサポートすることは困難である。
InSPATIO-WORLDは、単一の参照ビデオから高忠実でダイナミックなシーンを復元・生成できる新しいリアルタイムフレームワークである。
Indicit Spatiotemporal Cache aggregates reference and historical observeds to a Latent world representation, secure global consistency during long-horizon navigation; Explicit Spatial Constraint Modules enforces geometry structure and translates user interaction into exact and physically plausible camera trajectories。
さらに,JDMD (Joint Distribution Matching Distillation) を導入する。
実世界のデータ分布を正規化ガイドとして使用することにより、JDMDは、合成データへの過度な依存によって引き起こされる忠実度劣化を効果的に克服する。
大規模な実験により、INSPATIO-WORLDは、空間的一貫性と相互作用精度において既存の最先端(SOTA)モデルを大幅に上回り、WorldScore-Dynamicベンチマークにおけるリアルタイムインタラクティブな手法の中で第1位となり、モノクロビデオから再構成された4D環境をナビゲートするための実用的なパイプラインを確立した。
関連論文リスト
- Kinematics-Aware Latent World Models for Data-Efficient Autonomous Driving [8.391716372682316]
車両キネマティック情報は観測エンコーダに組み込まれ、物理的に意味のある運動力学における潜伏遷移を基底とする。
ジオメトリ・アウェアの監督は、RSSM潜時状態を規則化し、ピクセル再構成を超えてタスク関連空間構造をキャプチャする。
論文 参考訳(メタデータ) (2026-03-07T15:47:54Z) - RAYNOVA: Scale-Temporal Autoregressive World Modeling in Ray Space [51.441415833480505]
RAYNOVAは、二重因果自己回帰フレームワークを使用するシナリオを駆動するための多視点世界モデルである。
相対的なシャーカー線位置符号化に基づいて、ビュー、フレーム、スケールにまたがる等方的時間的表現を構築する。
論文 参考訳(メタデータ) (2026-02-24T08:41:40Z) - Infinite-World: Scaling Interactive World Models to 1000-Frame Horizons via Pose-Free Hierarchical Memory [101.2076718776139]
複雑な実環境において,1000フレーム以上のコヒーレントな視覚記憶を維持することのできる,堅牢な対話型世界モデルを提案する。
我々は,歴史的潜水剤を固定予算の幾何学的表現に蒸留するpose-free Memory (HPMC)を導入する。
また,連続動作を三状態論理に識別する不確実性認識型アクションラベルモジュールを提案する。
論文 参考訳(メタデータ) (2026-02-02T17:52:56Z) - TeleWorld: Towards Dynamic Multimodal Synthesis with a 4D World Model [53.555353366322464]
我々は,映像生成,動的シーン再構成,長期記憶をクローズドループシステム内で統合するリアルタイム多モード4DワールドモデリングフレームワークTeleWorldを提案する。
提案手法は,動的オブジェクトモデリングと静的シーン表現のシームレスな統合を実現し,現実的でインタラクティブで計算可能な合成システムに向けて世界モデルを推し進める。
論文 参考訳(メタデータ) (2025-12-31T18:31:46Z) - Towards Robust and Generalizable Continuous Space-Time Video Super-Resolution with Events [71.2439653098351]
連続時空ビデオスーパーSTVSRは、高解像度で高フレームのビデオを任意の時間スケールで再構成する能力への関心が高まっている。
EvEnhancerは、イベントストリームにカプセル化された高時間および高ダイナミックレンジのユニークな特性を結合する新しいアプローチである。
提案手法は,OODスケールでの一般化性を維持しつつ,合成および実世界の両方のデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-10-04T15:23:07Z) - TARDIS STRIDE: A Spatio-Temporal Road Image Dataset and World Model for Autonomy [44.85881816317044]
本研究では,360度パノラマ画像を相互接続した観測,状態,行動ノードに変換する方法を示す。
我々は、このデータセットをトランスフォーマーベースの生成ワールドモデルであるTARDISを介してベンチマークする。
我々は、制御可能な画像合成、命令追従、自律的自己制御、最先端のジオレファレンスなど、さまざまなエージェントタスクにおいて、堅牢な性能を示す。
論文 参考訳(メタデータ) (2025-06-12T21:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。