論文の概要: Lyra 2.0: Explorable Generative 3D Worlds
- arxiv url: http://arxiv.org/abs/2604.13036v1
- Date: Tue, 14 Apr 2026 17:59:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.610623
- Title: Lyra 2.0: Explorable Generative 3D Worlds
- Title(参考訳): Lyra 2.0: 探索可能な生成可能な3Dワールド
- Authors: Tianchang Shen, Sherwin Bahmani, Kai He, Sangeetha Grama Srinivasan, Tianshi Cao, Jiawei Ren, Ruilong Li, Zian Wang, Nicholas Sharp, Zan Gojcic, Sanja Fidler, Jiahui Huang, Huan Ling, Jun Gao, Xuanchi Ren,
- Abstract要約: Lyra 2.0は、永続的で探索可能な3D世界を大規模に生成するためのフレームワークです。
空間的忘れに対処するため、フレームごとの3D形状を維持し、情報ルーティングのみに使用します。
自己拡張された履歴をトレーニングして、モデルを自身の劣化した出力に公開し、それを伝播するのではなく、ドリフトを正すように教えます。
- 参考スコア(独自算出の注目度): 77.45279013687427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in video generation enable a new paradigm for 3D scene creation: generating camera-controlled videos that simulate scene walkthroughs, then lifting them to 3D via feed-forward reconstruction techniques. This generative reconstruction approach combines the visual fidelity and creative capacity of video models with 3D outputs ready for real-time rendering and simulation. Scaling to large, complex environments requires 3D-consistent video generation over long camera trajectories with large viewpoint changes and location revisits, a setting where current video models degrade quickly. Existing methods for long-horizon generation are fundamentally limited by two forms of degradation: spatial forgetting and temporal drifting. As exploration proceeds, previously observed regions fall outside the model's temporal context, forcing the model to hallucinate structures when revisited. Meanwhile, autoregressive generation accumulates small synthesis errors over time, gradually distorting scene appearance and geometry. We present Lyra 2.0, a framework for generating persistent, explorable 3D worlds at scale. To address spatial forgetting, we maintain per-frame 3D geometry and use it solely for information routing -- retrieving relevant past frames and establishing dense correspondences with the target viewpoints -- while relying on the generative prior for appearance synthesis. To address temporal drifting, we train with self-augmented histories that expose the model to its own degraded outputs, teaching it to correct drift rather than propagate it. Together, these enable substantially longer and 3D-consistent video trajectories, which we leverage to fine-tune feed-forward reconstruction models that reliably recover high-quality 3D scenes.
- Abstract(参考訳): 映像生成の最近の進歩により、3Dシーン作成の新しいパラダイムが実現された: シーンのウォークスルーをシミュレートするカメラ制御ビデオを生成し、フィードフォワード再構築技術を介して3Dに持ち上げる。
この生成的再構成アプローチは、映像モデルの視覚的忠実度と創造的能力と、リアルタイムレンダリングとシミュレーションが可能な3D出力を組み合わせる。
大規模で複雑な環境へのスケーリングには、3D一貫性のあるビデオ生成が必要である。
従来のロングホライゾン生成の方法は、空間的忘れと時間的ドリフトという2つの形態の劣化によって、基本的に制限されている。
探索が進むにつれて、先行観察された領域はモデルの時間的文脈の外に落ち、再考時にモデルに幻覚を強いる。
一方、自己回帰生成は時間とともに小さな合成誤差を蓄積し、徐々にシーンの外観や形状を歪ませる。
Lyra 2.0は、永続的で探索可能な3D世界を大規模に生成するためのフレームワークです。
空間的忘れに対処するため、私たちはフレームごとの3D形状を維持し、情報ルーティングにのみ使用します -- 関連する過去のフレームを検索し、ターゲット視点との密接な対応を確立します。
時間的ドリフトに対処するため、自己拡張された履歴を用いてトレーニングを行い、モデルを自身の劣化した出力に公開し、それを伝播するのではなく、正しいドリフトを教える。
これにより、高画質の3Dシーンを確実に再現する微調整フィードフォワード再構成モデルを活用することができる。
関連論文リスト
- 3DreamBooth: High-Fidelity 3D Subject-Driven Video Generation Model [18.407923160013404]
本稿では,3DreamBoothと3Dapterを組み合わせた3D対応ビデオカスタマイズフレームワークを提案する。
3DreamBoothは1フレーム最適化のパラダイムを通じて時間運動から空間幾何学を分離する。
きめ細かいテクスチャを強化し,収束を加速するために,視覚条件モジュールである3Dapterを組み込んだ。
論文 参考訳(メタデータ) (2026-03-19T06:14:05Z) - Beyond Pixel Histories: World Models with Persistent 3D State [50.4601060508243]
PERSISTは、潜伏した3Dシーンの進化をシミュレートする世界モデルの新たなパラダイムである。
既存の手法に比べて空間記憶,3次元整合性,長期安定性が大幅に向上した。
論文 参考訳(メタデータ) (2026-03-03T19:58:31Z) - GeoDiff3D: Self-Supervised 3D Scene Generation with Geometry-Constrained 2D Diffusion Guidance [8.625308061265754]
3Dシーン生成は、ゲーム、フィルム/VFX、VR/ARのコア技術である。
既存の手法は、間接的な2D-to-3D再構成と直接的な3D生成という2つのパラダイムに大きく従っている。
構造的アンカーとして粗い幾何学と幾何学制約付き2次元拡散モデルを用いてテクスチャリッチな参照画像を提供する,効率的な自己教師型フレームワークGeoDiff3Dを提案する。
論文 参考訳(メタデータ) (2026-01-27T16:47:35Z) - EvoWorld: Evolving Panoramic World Generation with Explicit 3D Memory [40.346684158976494]
EvoWorldは、空間的に一貫した長距離探査を可能にするために、3Dメモリを進化させたパノラマビデオ生成を橋渡しする。
ビデオのみを合成する従来の最先端技術とは異なり、我々の重要な洞察は、この進化する3D再構成を明示的な空間的ガイダンスとして活用することにある。
長距離探査能力を評価するため,合成屋外環境,ハビタット屋内シーン,実世界のシナリオに挑戦する,初の総合的なベンチマークを導入した。
論文 参考訳(メタデータ) (2025-10-01T17:59:38Z) - Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation [66.95956271144982]
本稿では,単一画像から一貫した3Dポイントクラウドシーケンスを生成する新しいビデオ拡散フレームワークであるVoyagerを紹介する。
既存のアプローチとは異なり、Voyagerはフレーム間で固有の一貫性を持って、エンドツーエンドのシーン生成と再構築を実現している。
論文 参考訳(メタデータ) (2025-06-04T17:59:04Z) - Wonderland: Navigating 3D Scenes from a Single Image [43.99037613068823]
本研究では,映像拡散モデルからの潜伏分を利用した大規模再構成モデルを導入し,映像の3次元ガウススプラッティングをフィードフォワードで予測する。
プログレッシブ・ラーニング・ストラテジーを用いて3次元再構成モデルをトレーニングし,高品質でワイドスコープ,ジェネリックな3次元シーンの効率的な生成を可能にする。
論文 参考訳(メタデータ) (2024-12-16T18:58:17Z) - 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。