論文の概要: DynamicVerse: A Physically-Aware Multimodal Framework for 4D World Modeling
- arxiv url: http://arxiv.org/abs/2512.03000v1
- Date: Tue, 02 Dec 2025 18:24:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:46.002142
- Title: DynamicVerse: A Physically-Aware Multimodal Framework for 4D World Modeling
- Title(参考訳): DynamicVerse: 4次元世界モデリングのための物理的に認識されたマルチモーダルフレームワーク
- Authors: Kairun Wen, Yuzhi Huang, Runyu Chen, Hui Zheng, Yunlong Lin, Panwang Pan, Chenxin Li, Wenyan Cong, Jian Zhang, Junbin Lu, Chenguo Lin, Dilin Wang, Zhicheng Yan, Hongyu Xu, Justin Theiss, Yue Huang, Xinghao Ding, Rakesh Ranjan, Zhiwen Fan,
- Abstract要約: 物理スケールでマルチモーダルな4DワールドモデリングフレームワークであるDynamicVerseを紹介した。
我々は視覚、幾何学、マルチモーダルモデルを用いて、メートルスケールの静的幾何、実世界の動的運動、インスタンスレベルのマスク、そして全体論的キャプションを解釈する。
DynamicVerseは、100K以上のビデオと800K以上の注釈付きマスク、インターネットビデオから10M以上のフレームからなる大規模なデータセットを提供する。
- 参考スコア(独自算出の注目度): 67.95038177144554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the dynamic physical world, characterized by its evolving 3D structure, real-world motion, and semantic content with textual descriptions, is crucial for human-agent interaction and enables embodied agents to perceive and act within real environments with human-like capabilities. However, existing datasets are often derived from limited simulators or utilize traditional Structurefrom-Motion for up-to-scale annotation and offer limited descriptive captioning, which restricts the capacity of foundation models to accurately interpret real-world dynamics from monocular videos, commonly sourced from the internet. To bridge these gaps, we introduce DynamicVerse, a physical-scale, multimodal 4D world modeling framework for dynamic real-world video. We employ large vision, geometric, and multimodal models to interpret metric-scale static geometry, real-world dynamic motion, instance-level masks, and holistic descriptive captions. By integrating window-based Bundle Adjustment with global optimization, our method converts long real-world video sequences into a comprehensive 4D multimodal format. DynamicVerse delivers a large-scale dataset consists of 100K+ videos with 800K+ annotated masks and 10M+ frames from internet videos. Experimental evaluations on three benchmark tasks, namely video depth estimation, camera pose estimation, and camera intrinsics estimation, demonstrate that our 4D modeling achieves superior performance in capturing physical-scale measurements with greater global accuracy than existing methods.
- Abstract(参考訳): 動的物理世界を理解することは、その進化する3D構造、実世界の動き、テキストによる記述による意味的内容によって特徴づけられるが、人間とエージェントの相互作用には不可欠であり、具体化されたエージェントが人間のような能力で現実の環境内で知覚し、行動することができる。
しかし、既存のデータセットは、しばしば、制限されたシミュレータから派生したものや、従来のStructure From-Motionを使って、大規模なアノテーションと限定的な記述キャプションを提供し、インターネットから一般的に供給されるモノクロビデオから現実世界のダイナミクスを正確に解釈する基礎モデルの能力を制限している。
このギャップを埋めるために,ダイナミック・リアル・ワールド・ビデオのための物理スケールでマルチモーダルな4Dワールド・モデリング・フレームワークであるDynamicVerseを紹介した。
我々は,大規模な視覚,幾何学,マルチモーダルモデルを用いて,計量スケールの静的幾何,実世界の動的運動,インスタンスレベルのマスク,包括的記述キャプションを解釈する。
ウィンドウベースのバンドル調整とグローバル最適化を組み合わせることで、長い実世界のビデオシーケンスを総合的な4Dマルチモーダルフォーマットに変換する。
DynamicVerseは、100K以上のビデオと800K以上の注釈付きマスク、インターネットビデオから10M以上のフレームからなる大規模なデータセットを提供する。
映像深度推定, カメラポーズ推定, カメラ内在的推定という3つのベンチマーク課題に対する実験的評価は, 既存の手法よりも高精度な物理スケール計測において, より優れた4次元モデリングが達成できることを実証している。
関連論文リスト
- PartRM: Modeling Part-Level Dynamics with Large Cross-State Reconstruction Model [23.768571323272152]
PartRMは、静的オブジェクトの多視点画像から外観、幾何学、部分レベルの動きを同時にモデル化する新しい4D再構成フレームワークである。
我々はPartDrag-4Dデータセットを導入し、20,000以上の状態にまたがる部分レベルのダイナミクスを多視点で観察する。
実験結果から,PartRMはロボット工学の操作作業に応用できる部分レベルの動作学習において,新たな最先端技術を確立していることがわかった。
論文 参考訳(メタデータ) (2025-03-25T17:59:58Z) - 4D Gaussian Splatting: Modeling Dynamic Scenes with Native 4D Primitives [115.67081491747943]
動的3Dシーン表現と新しいビュー合成はAR/VRおよびメタバースアプリケーションの実現に不可欠である。
我々は,その基礎となる4次元体積を近似として,時間変化の異なる3次元シーンの再構成を再構成する。
ストレージのボトルネックに対処するため、メモリフットプリントを効果的に削減するいくつかのコンパクトなバリエーションを導出する。
論文 参考訳(メタデータ) (2024-12-30T05:30:26Z) - PhysFlow: Unleashing the Potential of Multi-modal Foundation Models and Video Diffusion for 4D Dynamic Physical Scene Simulation [9.306758077479472]
PhysFlowは、マルチモーダル基礎モデルとビデオ拡散を利用して、強化された4次元ダイナミックシーンシミュレーションを実現する新しいアプローチである。
この統合フレームワークは、現実世界のシナリオにおける動的相互作用の正確な予測と現実的なシミュレーションを可能にする。
論文 参考訳(メタデータ) (2024-11-21T18:55:23Z) - DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and
Depth from Monocular Videos [76.01906393673897]
本研究では,モノクラービデオから3次元運動と深度を協調的に学習する自己教師手法を提案する。
本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。
我々のモデルは評価されたすべての設定において優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-03-09T12:22:46Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Real-time Deep Dynamic Characters [95.5592405831368]
本研究では,高度にリアルな形状,動き,ダイナミックな外観を示す3次元人物モデルを提案する。
我々は,新しいグラフ畳み込みネットワークアーキテクチャを用いて,身体と衣服の運動依存的変形学習を実現する。
本モデルでは, 運動依存的表面変形, 物理的に妥当な動的衣服変形, および映像現実的表面テクスチャを, 従来よりも細部まで高レベルに生成することを示す。
論文 参考訳(メタデータ) (2021-05-04T23:28:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。