論文の概要: EvoWorld: Evolving Panoramic World Generation with Explicit 3D Memory
- arxiv url: http://arxiv.org/abs/2510.01183v1
- Date: Wed, 01 Oct 2025 17:59:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.721865
- Title: EvoWorld: Evolving Panoramic World Generation with Explicit 3D Memory
- Title(参考訳): EvoWorld: 明示的な3Dメモリでパノラマ世界を進化させる
- Authors: Jiahao Wang, Luoxin Ye, TaiMing Lu, Junfei Xiao, Jiahan Zhang, Yuxiang Guo, Xijun Liu, Rama Chellappa, Cheng Peng, Alan Yuille, Jieneng Chen,
- Abstract要約: EvoWorldは、空間的に一貫した長距離探査を可能にするために、3Dメモリを進化させたパノラマビデオ生成を橋渡しする。
ビデオのみを合成する従来の最先端技術とは異なり、我々の重要な洞察は、この進化する3D再構成を明示的な空間的ガイダンスとして活用することにある。
長距離探査能力を評価するため,合成屋外環境,ハビタット屋内シーン,実世界のシナリオに挑戦する,初の総合的なベンチマークを導入した。
- 参考スコア(独自算出の注目度): 40.346684158976494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans possess a remarkable ability to mentally explore and replay 3D environments they have previously experienced. Inspired by this mental process, we present EvoWorld: a world model that bridges panoramic video generation with evolving 3D memory to enable spatially consistent long-horizon exploration. Given a single panoramic image as input, EvoWorld first generates future video frames by leveraging a video generator with fine-grained view control, then evolves the scene's 3D reconstruction using a feedforward plug-and-play transformer, and finally synthesizes futures by conditioning on geometric reprojections from this evolving explicit 3D memory. Unlike prior state-of-the-arts that synthesize videos only, our key insight lies in exploiting this evolving 3D reconstruction as explicit spatial guidance for the video generation process, projecting the reconstructed geometry onto target viewpoints to provide rich spatial cues that significantly enhance both visual realism and geometric consistency. To evaluate long-range exploration capabilities, we introduce the first comprehensive benchmark spanning synthetic outdoor environments, Habitat indoor scenes, and challenging real-world scenarios, with particular emphasis on loop-closure detection and spatial coherence over extended trajectories. Extensive experiments demonstrate that our evolving 3D memory substantially improves visual fidelity and maintains spatial scene coherence compared to existing approaches, representing a significant advance toward long-horizon spatially consistent world modeling.
- Abstract(参考訳): 人間は、これまで経験した3D環境を精神的に探索し、再生する素晴らしい能力を持っている。
このメンタルなプロセスにインスパイアされたEvoWorldは、パノラマビデオ生成を進化する3Dメモリでブリッジし、空間的に一貫した長距離探査を可能にする世界モデルである。
入力として単一のパノラマ画像が与えられた後、EvoWorldはまずビデオジェネレータを微粒なビューコントロールで活用し、次にフィードフォワード・プラグ・アンド・プレイ・トランスフォーマーを用いてシーンの3D再構成を進化させ、最終的にこの進化した3Dメモリから幾何学的再投影を条件付けて未来を合成する。
ビデオのみを合成する従来の最先端技術とは異なり、我々の重要な洞察は、この進化する3D再構成をビデオ生成プロセスの明示的な空間的ガイダンスとして活用することであり、再構成された幾何学を対象の視点に投影することで、視覚リアリズムと幾何学的整合性の両方を大幅に向上させるリッチな空間的手がかりを提供する。
長距離探査能力を評価するため, 合成屋外環境, Habitat屋内シーン, 実世界のシナリオに挑戦する, 拡張軌道上のループ閉鎖検出と空間コヒーレンスに着目した, 初の総合的なベンチマークを導入した。
広汎な実験により、我々の進化する3Dメモリは、空間的忠実性を大幅に向上し、空間的コヒーレンスを維持することが示され、長期的空間的一貫した世界モデリングへの大きな進歩を示している。
関連論文リスト
- PanoWorld-X: Generating Explorable Panoramic Worlds via Sphere-Aware Video Diffusion [87.13016347332943]
PanoWorld-Xは、多彩なカメラ軌道を持つ高忠実で制御可能なパノラマビデオ生成のための新しいフレームワークである。
動作範囲,制御精度,視覚的品質など,様々な面で優れた性能を示す実験を行った。
論文 参考訳(メタデータ) (2025-09-29T16:22:00Z) - FantasyWorld: Geometry-Consistent World Modeling via Unified Video and 3D Prediction [13.098585993121722]
本稿では,FantasyWorldについて紹介する。FantasyWorldは,凍結動画基盤モデルをトレーニング可能な幾何学的ブランチで拡張する幾何学的拡張フレームワークである。
提案手法は,3次元予測を正規化するためのガイド映像生成とビデオ優先の手法であるクロスブランチ・インフォメーションを導入する。
実験により、FantasyWorldは映像の想像力と3D知覚を効果的に橋渡しし、近年の多視点コヒーレンスとスタイル整合性において、幾何学的に一貫性のあるベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2025-09-25T22:24:23Z) - Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation [66.95956271144982]
本稿では,単一画像から一貫した3Dポイントクラウドシーケンスを生成する新しいビデオ拡散フレームワークであるVoyagerを紹介する。
既存のアプローチとは異なり、Voyagerはフレーム間で固有の一貫性を持って、エンドツーエンドのシーン生成と再構築を実現している。
論文 参考訳(メタデータ) (2025-06-04T17:59:04Z) - WorldExplorer: Towards Generating Fully Navigable 3D Scenes [48.16064304951891]
WorldExplorerは、幅広い視点で一貫した視覚的品質で、完全にナビゲート可能な3Dシーンを構築する。
私たちは、シーンを深く探求する、短く定義された軌道に沿って、複数のビデオを生成します。
我々の新しいシーン記憶は、各ビデオが最も関連性の高い先行ビューで条件付けされている一方、衝突検出機構は劣化を防止している。
論文 参考訳(メタデータ) (2025-06-02T15:41:31Z) - SpatialCrafter: Unleashing the Imagination of Video Diffusion Models for Scene Reconstruction from Limited Observations [44.53106180688135]
この作業は、スパースやシングルビューのインプットから3Dシーンを再構築する上での課題である。
SpatialCrafterは,ビデオ拡散モデルにおける豊富な知識を活用して,可算的な追加観測を生成するフレームワークである。
トレーニング可能なカメラエンコーダと、明示的な幾何学的制約に対するエピポーラアテンション機構により、精密なカメラ制御と3D整合性を実現する。
論文 参考訳(メタデータ) (2025-05-17T13:05:13Z) - Learning 3D Persistent Embodied World Models [84.40585374179037]
我々は、以前に生成されたコンテンツの明示的なメモリを備えた、新しい永続的エンボディド・ワールドモデルを導入する。
映像拡散モデルでは, 映像拡散モデルにより, エージェントの今後の観察のRGB-D映像が予測される。
この生成は、環境の永続的な3Dマップに集約される。
論文 参考訳(メタデータ) (2025-05-05T17:59:17Z) - ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis [63.169364481672915]
単一またはスパース画像からジェネリックシーンの高忠実な新規ビューを合成する新しい方法である textbfViewCrafter を提案する。
提案手法は,映像拡散モデルの強力な生成能力と,ポイントベース表現によって提供される粗い3D手がかりを利用して高品質な映像フレームを生成する。
論文 参考訳(メタデータ) (2024-09-03T16:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。