論文の概要: OmniWorld: A Multi-Domain and Multi-Modal Dataset for 4D World Modeling
- arxiv url: http://arxiv.org/abs/2509.12201v1
- Date: Mon, 15 Sep 2025 17:59:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.445923
- Title: OmniWorld: A Multi-Domain and Multi-Modal Dataset for 4D World Modeling
- Title(参考訳): OmniWorld: 4次元世界モデリングのためのマルチドメインおよびマルチモーダルデータセット
- Authors: Yang Zhou, Yifan Wang, Jianjun Zhou, Wenzheng Chang, Haoyu Guo, Zizun Li, Kaijing Ma, Xinyue Li, Yating Wang, Haoyi Zhu, Mingyu Liu, Dingning Liu, Jiange Yang, Zhoujie Fu, Junyi Chen, Chunhua Shen, Jiangmiao Pang, Kaipeng Zhang, Tong He,
- Abstract要約: 我々は,4次元世界モデリングに特化した大規模マルチドメインマルチモーダルデータセットであるOmniWorldを紹介した。
既存の合成データセットと比較して、OmniWorld-Gameはよりリッチなモダリティカバレッジ、より大きなスケール、より現実的な動的インタラクションを提供する。
我々は、複雑な4D環境のモデリングにおいて、現在の最先端(SOTA)アプローチの限界を明らかにするための挑戦的なベンチマークを確立する。
- 参考スコア(独自算出の注目度): 86.12242953301121
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The field of 4D world modeling - aiming to jointly capture spatial geometry and temporal dynamics - has witnessed remarkable progress in recent years, driven by advances in large-scale generative models and multimodal learning. However, the development of truly general 4D world models remains fundamentally constrained by the availability of high-quality data. Existing datasets and benchmarks often lack the dynamic complexity, multi-domain diversity, and spatial-temporal annotations required to support key tasks such as 4D geometric reconstruction, future prediction, and camera-control video generation. To address this gap, we introduce OmniWorld, a large-scale, multi-domain, multi-modal dataset specifically designed for 4D world modeling. OmniWorld consists of a newly collected OmniWorld-Game dataset and several curated public datasets spanning diverse domains. Compared with existing synthetic datasets, OmniWorld-Game provides richer modality coverage, larger scale, and more realistic dynamic interactions. Based on this dataset, we establish a challenging benchmark that exposes the limitations of current state-of-the-art (SOTA) approaches in modeling complex 4D environments. Moreover, fine-tuning existing SOTA methods on OmniWorld leads to significant performance gains across 4D reconstruction and video generation tasks, strongly validating OmniWorld as a powerful resource for training and evaluation. We envision OmniWorld as a catalyst for accelerating the development of general-purpose 4D world models, ultimately advancing machines' holistic understanding of the physical world.
- Abstract(参考訳): 4次元世界モデリングの分野は、空間幾何学と時間力学を共同で捉えることを目的としており、大規模生成モデルとマルチモーダル学習の進歩によって近年顕著な進歩を遂げている。
しかし、真の4Dワールドモデルの開発は、高品質なデータの提供により、根本的な制約が残されている。
既存のデータセットとベンチマークは、4D幾何再構成、将来の予測、カメラ制御ビデオ生成といった重要なタスクをサポートするのに必要な動的複雑さ、マルチドメインの多様性、空間時間アノテーションを欠いていることが多い。
このギャップに対処するため、我々はOmniWorldを紹介した。OmniWorldは大規模で、マルチドメイン、マルチモーダルなデータセットで、4Dワールドモデリング用に特別に設計されている。
OmniWorldは、新しく収集されたOmniWorld-Gameデータセットと、さまざまなドメインにまたがるいくつかのキュレートされたパブリックデータセットで構成されている。
既存の合成データセットと比較して、OmniWorld-Gameはよりリッチなモダリティカバレッジ、より大きなスケール、より現実的な動的インタラクションを提供する。
このデータセットに基づいて、複雑な4D環境のモデリングにおける現在の最先端(SOTA)アプローチの限界を明らかにするための、挑戦的なベンチマークを確立する。
さらに,OmniWorldの既存のSOTA手法を微調整することで,4次元再構成タスクやビデオ生成タスクの大幅なパフォーマンス向上を実現し,OmniWorldをトレーニングと評価の強力なリソースとして強く検証した。
我々は,OmniWorldを汎用4Dワールドモデルの開発を加速させる触媒として想定し,最終的には物理世界に対する機械の全体的理解を推し進める。
関連論文リスト
- LatticeWorld: A Multimodal Large Language Model-Empowered Framework for Interactive Complex World Generation [35.4193352348583]
本稿では,3D環境の産業生産パイプラインを効率化する,シンプルで効果的な3Dワールドジェネレーションフレームワークを提案する。
LatticeWorldは、競合するマルチエージェントインタラクションを特徴とする、動的エージェントを備えた大規模な3Dインタラクティブワールドを生成する。
LatticeWorldは90倍以上の工業生産効率の向上を実現している。
論文 参考訳(メタデータ) (2025-09-05T17:22:33Z) - PartRM: Modeling Part-Level Dynamics with Large Cross-State Reconstruction Model [23.768571323272152]
PartRMは、静的オブジェクトの多視点画像から外観、幾何学、部分レベルの動きを同時にモデル化する新しい4D再構成フレームワークである。
我々はPartDrag-4Dデータセットを導入し、20,000以上の状態にまたがる部分レベルのダイナミクスを多視点で観察する。
実験結果から,PartRMはロボット工学の操作作業に応用できる部分レベルの動作学習において,新たな最先端技術を確立していることがわかった。
論文 参考訳(メタデータ) (2025-03-25T17:59:58Z) - GEM: A Generalizable Ego-Vision Multimodal World Model for Fine-Grained Ego-Motion, Object Dynamics, and Scene Composition Control [122.65089441381741]
一般化可能なエゴビジョン・マルチモーダル世界モデルであるGEMについて述べる。
参照フレーム、スパース機能、人間のポーズ、エゴ軌道を使って将来のフレームを予測する。
私たちのデータセットは、自律運転、エゴセントリックな人間活動、ドローン飛行など、複数の領域にまたがる4000時間以上のマルチモーダルデータで構成されています。
論文 参考訳(メタデータ) (2024-12-15T14:21:19Z) - DrivingDojo Dataset: Advancing Interactive and Knowledge-Enriched Driving World Model [65.43473733967038]
私たちは、複雑な駆動ダイナミクスを備えたインタラクティブな世界モデルのトレーニング用に作られた最初のデータセットであるDrivingDojoを紹介します。
私たちのデータセットには、完全な運転操作、多様なマルチエージェント・インタープレイ、豊富なオープンワールド運転知識を備えたビデオクリップが含まれています。
論文 参考訳(メタデータ) (2024-10-14T17:19:23Z) - OmniRe: Omni Urban Scene Reconstruction [78.99262488964423]
OmniReはデバイス上でのログから動的現実シーンの高忠実なデジタルツインを作成するための総合システムである。
提案手法は3DGS上にシーングラフを構築し,様々な動的アクターをモデル化する標準空間内に複数のガウス表現を構築する。
論文 参考訳(メタデータ) (2024-08-29T17:56:33Z) - 3D-VLA: A 3D Vision-Language-Action Generative World Model [68.0388311799959]
最近の視覚言語アクション(VLA)モデルは2D入力に依存しており、3D物理世界の広い領域との統合は欠如している。
本稿では,3次元知覚,推論,行動をシームレスにリンクする新しい基礎モデルのファウンデーションモデルを導入することにより,3D-VLAを提案する。
本実験により,3D-VLAは実環境における推論,マルチモーダル生成,計画能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-03-14T17:58:41Z) - LiveHPS: LiDAR-based Scene-level Human Pose and Shape Estimation in Free
Environment [59.320414108383055]
シーンレベルの人間のポーズと形状推定のための単一LiDARに基づく新しいアプローチであるLiveHPSを提案する。
多様な人間のポーズを伴う様々なシナリオで収集される巨大な人間の動きデータセットFreeMotionを提案する。
論文 参考訳(メタデータ) (2024-02-27T03:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。