論文の概要: FantasyWorld: Geometry-Consistent World Modeling via Unified Video and 3D Prediction
- arxiv url: http://arxiv.org/abs/2509.21657v1
- Date: Thu, 25 Sep 2025 22:24:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.052732
- Title: FantasyWorld: Geometry-Consistent World Modeling via Unified Video and 3D Prediction
- Title(参考訳): FantasyWorld: 統一ビデオと3D予測による幾何学的一貫性のある世界モデリング
- Authors: Yixiang Dai, Fan Jiang, Chiyu Wang, Mu Xu, Yonggang Qi,
- Abstract要約: 本稿では,FantasyWorldについて紹介する。FantasyWorldは,凍結動画基盤モデルをトレーニング可能な幾何学的ブランチで拡張する幾何学的拡張フレームワークである。
提案手法は,3次元予測を正規化するためのガイド映像生成とビデオ優先の手法であるクロスブランチ・インフォメーションを導入する。
実験により、FantasyWorldは映像の想像力と3D知覚を効果的に橋渡しし、近年の多視点コヒーレンスとスタイル整合性において、幾何学的に一貫性のあるベースラインを上回っていることが示された。
- 参考スコア(独自算出の注目度): 13.098585993121722
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-quality 3D world models are pivotal for embodied intelligence and Artificial General Intelligence (AGI), underpinning applications such as AR/VR content creation and robotic navigation. Despite the established strong imaginative priors, current video foundation models lack explicit 3D grounding capabilities, thus being limited in both spatial consistency and their utility for downstream 3D reasoning tasks. In this work, we present FantasyWorld, a geometry-enhanced framework that augments frozen video foundation models with a trainable geometric branch, enabling joint modeling of video latents and an implicit 3D field in a single forward pass. Our approach introduces cross-branch supervision, where geometry cues guide video generation and video priors regularize 3D prediction, thus yielding consistent and generalizable 3D-aware video representations. Notably, the resulting latents from the geometric branch can potentially serve as versatile representations for downstream 3D tasks such as novel view synthesis and navigation, without requiring per-scene optimization or fine-tuning. Extensive experiments show that FantasyWorld effectively bridges video imagination and 3D perception, outperforming recent geometry-consistent baselines in multi-view coherence and style consistency. Ablation studies further confirm that these gains stem from the unified backbone and cross-branch information exchange.
- Abstract(参考訳): 高品質な3Dワールドモデルは、AR/VRコンテンツ作成やロボットナビゲーションといった応用を支える、エンボディインテリジェンスと人工知能(AGI)にとって重要な要素である。
確立された強い想像的前提にもかかわらず、現在のビデオファンデーションモデルは明示的な3Dグラウンド機能に欠けており、空間的一貫性と下流の3D推論タスクの実用性の両方に制限されている。
本稿では,学習可能な幾何学的分岐で凍結映像基盤モデルを拡張し,ビデオラテントと暗黙の3Dフィールドを1つの前方パスでモデリングする,幾何学的拡張フレームワークであるFantasyWorldを紹介する。
提案手法では,3次元予測を正規化することで,一貫した3次元映像表現を実現する。
特に、幾何学的分岐から得られた潜水剤は、シーンごとの最適化や微調整を必要とせず、新しいビュー合成やナビゲーションのような下流3Dタスクの汎用的な表現として機能する可能性がある。
大規模な実験により、FantasyWorldは映像の想像力と3D知覚を効果的に橋渡しし、近年の多視点コヒーレンスとスタイル整合性において、幾何学的に一貫性のあるベースラインを上回ります。
アブレーション研究により、これらの利得は統合されたバックボーンとクロスブランチ情報交換に由来することが確認された。
関連論文リスト
- UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding [57.86758122195093]
3Dモダリティのための最初の統一的理解・生成フレームワークUniUGGを紹介する。
本フレームワークでは,LLMを用いて文や3次元表現の理解とデコードを行う。
遅延拡散モデルを利用して高品質な3次元表現を生成する空間デコーダを提案する。
論文 参考訳(メタデータ) (2025-08-16T07:27:31Z) - Geometry-aware 4D Video Generation for Robot Manipulation [28.709339959536106]
そこで本研究では,映像の多視点3次元整合性を実現する4次元映像生成モデルを提案する。
この幾何学的監督により、モデルはシーンの共有3次元表現を学習することができ、新しい視点から将来の映像シーケンスを予測することができる。
既存のベースラインと比較して,本手法は複数のシミュレーションおよび実世界のロボットデータセットに対して,より視覚的に安定かつ空間的に整合した予測を生成する。
論文 参考訳(メタデータ) (2025-07-01T18:01:41Z) - Diffusion Models in 3D Vision: A Survey [18.805222552728225]
3Dビジョンはコンピュータビジョンにおいて重要な分野となり、自律運転、ロボット工学、拡張現実、医療画像などの幅広い応用に力を入れている。
本稿では,3次元オブジェクト生成,形状完備化,点雲再構成,シーン構築など,三次元視覚タスクに拡散モデルを用いる最先端の手法について概説する。
計算効率の向上,マルチモーダル融合の強化,大規模事前学習による3次元タスクの一般化の促進など,潜在的なソリューションについて議論する。
論文 参考訳(メタデータ) (2024-10-07T04:12:23Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [111.16358607889609]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Large-Vocabulary 3D Diffusion Model with Transformer [57.076986347047]
本稿では,1つの生成モデルを用いて実世界の3Dオブジェクトの大規模カテゴリを合成するための拡散型フィードフォワードフレームワークを提案する。
本稿では,三面体を用いた3次元拡散モデル(TransFormer, DiffTF)を提案する。
ShapeNetとOmniObject3Dの実験は、単一のDiffTFモデルが最先端の大語彙3Dオブジェクト生成性能を達成することを確実に実証している。
論文 参考訳(メタデータ) (2023-09-14T17:59:53Z) - 3D-Aware Video Generation [149.5230191060692]
本研究では, 3D 対応ビデオの生成を学習する 4 次元生成敵ネットワーク (GAN) について検討する。
神経暗黙表現と時間認識判別器を組み合わせることで,モノクラービデオのみを教師する3D映像を合成するGANフレームワークを開発した。
論文 参考訳(メタデータ) (2022-06-29T17:56:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。