論文の概要: DeepVerse: 4D Autoregressive Video Generation as a World Model
- arxiv url: http://arxiv.org/abs/2506.01103v1
- Date: Sun, 01 Jun 2025 17:58:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.932816
- Title: DeepVerse: 4D Autoregressive Video Generation as a World Model
- Title(参考訳): DeepVerse:世界モデルとしての4D自動回帰ビデオ生成
- Authors: Junyi Chen, Haoyi Zhu, Xianglong He, Yifan Wang, Jianjun Zhou, Wenzheng Chang, Yang Zhou, Zizun Li, Zhoujie Fu, Jiangmiao Pang, Tong He,
- Abstract要約: DeepVerseは、4Dインタラクティブな新しい世界モデルであり、過去の時系列から幾何学的予測を現在の行動予測に明示的に取り入れている。
実験では、明示的な幾何学的制約を組み込むことで、DeepVerseはより豊かな時間的関係と基礎となる物理力学を捉えている。
この機能はドリフトを大幅に低減し、時間的一貫性を高め、モデルが確実に将来的なシーケンスを生成することを可能にする。
- 参考スコア(独自算出の注目度): 16.877309608945566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: World models serve as essential building blocks toward Artificial General Intelligence (AGI), enabling intelligent agents to predict future states and plan actions by simulating complex physical interactions. However, existing interactive models primarily predict visual observations, thereby neglecting crucial hidden states like geometric structures and spatial coherence. This leads to rapid error accumulation and temporal inconsistency. To address these limitations, we introduce DeepVerse, a novel 4D interactive world model explicitly incorporating geometric predictions from previous timesteps into current predictions conditioned on actions. Experiments demonstrate that by incorporating explicit geometric constraints, DeepVerse captures richer spatio-temporal relationships and underlying physical dynamics. This capability significantly reduces drift and enhances temporal consistency, enabling the model to reliably generate extended future sequences and achieve substantial improvements in prediction accuracy, visual realism, and scene rationality. Furthermore, our method provides an effective solution for geometry-aware memory retrieval, effectively preserving long-term spatial consistency. We validate the effectiveness of DeepVerse across diverse scenarios, establishing its capacity for high-fidelity, long-horizon predictions grounded in geometry-aware dynamics.
- Abstract(参考訳): 世界モデルは人工知能(AGI)にとって不可欠なビルディングブロックとして機能し、知的エージェントは複雑な物理的相互作用をシミュレートすることで将来の状態を予測し、行動を計画することができる。
しかし、既存のインタラクティブモデルは、主に視覚的な観察を予測し、幾何学的構造や空間的コヒーレンスのような重要な隠れ状態を無視している。
これにより、エラーの急激な蓄積と時間的不整合が発生する。
これらの制約に対処するために,従来の時間ステップからの幾何学的予測をアクションに条件付けされた現在の予測に明示的に組み込んだ,新しい4DインタラクティブワールドモデルであるDeepVerseを紹介した。
実験では、明示的な幾何学的制約を組み込むことで、DeepVerseはより豊かな時空間関係と基礎となる物理力学をキャプチャする。
この能力はドリフトを著しく低減し、時間的一貫性を高め、モデルが将来的なシーケンスを確実に生成し、予測精度、視覚リアリズム、シーン合理性を大幅に改善することを可能にする。
さらに, この手法は, 長期空間の一貫性を効果的に保ちながら, 幾何認識メモリの検索に有効なソリューションを提供する。
我々はDeepVerseの有効性を様々なシナリオで検証し、幾何認識力学に基づく高忠実で長い水平予測の能力を確立する。
関連論文リスト
- Learning 3D Persistent Embodied World Models [84.40585374179037]
我々は、以前に生成されたコンテンツの明示的なメモリを備えた、新しい永続的エンボディド・ワールドモデルを導入する。
映像拡散モデルでは, 映像拡散モデルにより, エージェントの今後の観察のRGB-D映像が予測される。
この生成は、環境の永続的な3Dマップに集約される。
論文 参考訳(メタデータ) (2025-05-05T17:59:17Z) - Geometry-aware Active Learning of Spatiotemporal Dynamic Systems [4.251030047034566]
本稿では,動的システムのモデリングのための幾何対応能動学習フレームワークを提案する。
データ収集のための空間的位置を戦略的に識別し、予測精度をさらに最大化する適応型能動学習戦略を開発した。
論文 参考訳(メタデータ) (2025-04-26T19:56:38Z) - Conservation-informed Graph Learning for Spatiotemporal Dynamics Prediction [84.26340606752763]
本稿では,保護インフォームドGNN(CiGNN)について紹介する。
このネットワークは、保守的かつ非保守的な情報が、潜時的行進戦略によって多次元空間を通過する対称性による一般的な対称性保存則に従うように設計されている。
結果は,CiGNNが顕著なベースライン精度と一般化性を示し,様々な時間的ダイナミクスの予測のための学習に容易に適用可能であることを示した。
論文 参考訳(メタデータ) (2024-12-30T13:55:59Z) - Autoregressive Uncertainty Modeling for 3D Bounding Box Prediction [63.3021778885906]
3Dバウンディングボックスは、多くのコンピュータビジョンアプリケーションで広く使われている中間表現である。
本稿では,自己回帰モデルを利用して高い信頼度予測と意味のある不確実性対策を行う手法を提案する。
我々はシミュレーションデータセットであるCOB-3Dをリリースし、現実世界のロボティクスアプリケーションで発生する新しいタイプのあいまいさを強調します。
論文 参考訳(メタデータ) (2022-10-13T23:57:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。