論文の概要: WonderZoom: Multi-Scale 3D World Generation
- arxiv url: http://arxiv.org/abs/2512.09164v1
- Date: Tue, 09 Dec 2025 22:21:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.33593
- Title: WonderZoom: Multi-Scale 3D World Generation
- Title(参考訳): WonderZoom:マルチスケール3Dワールドジェネレーション
- Authors: Jin Cao, Hong-Xing Yu, Jiajun Wu,
- Abstract要約: WonderZoomは、単一の画像から複数の空間スケールにわたるコンテンツを持つ3Dシーンを生成する。
提案手法では,ユーザが3D領域に“ズームイン”し,これまで存在していなかった詳細情報を自動回帰的に合成する。
- 参考スコア(独自算出の注目度): 24.211362383859406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present WonderZoom, a novel approach to generating 3D scenes with contents across multiple spatial scales from a single image. Existing 3D world generation models remain limited to single-scale synthesis and cannot produce coherent scene contents at varying granularities. The fundamental challenge is the lack of a scale-aware 3D representation capable of generating and rendering content with largely different spatial sizes. WonderZoom addresses this through two key innovations: (1) scale-adaptive Gaussian surfels for generating and real-time rendering of multi-scale 3D scenes, and (2) a progressive detail synthesizer that iteratively generates finer-scale 3D contents. Our approach enables users to "zoom into" a 3D region and auto-regressively synthesize previously non-existent fine details from landscapes to microscopic features. Experiments demonstrate that WonderZoom significantly outperforms state-of-the-art video and 3D models in both quality and alignment, enabling multi-scale 3D world creation from a single image. We show video results and an interactive viewer of generated multi-scale 3D worlds in https://wonderzoom.github.io/
- Abstract(参考訳): 一つの画像から複数の空間スケールにまたがってコンテンツを含む3Dシーンを生成する新しい手法であるWonderZoomを提案する。
既存の3Dワールドジェネレーションモデルは、シングルスケールの合成に限られており、様々な粒度でコヒーレントなシーンコンテンツを生成できない。
基本的な課題は、空間サイズが大きく異なるコンテンツを生成・レンダリングできるスケール対応の3D表現がないことである。
ワンダーZoomは、(1)マルチスケール3Dシーンの生成とリアルタイムレンダリングのためのスケール適応型ガウス波と、(2)より微細な3Dコンテンツを反復的に生成するプログレッシブディテールシンセサイザーである。
提案手法は,3次元領域を「ズームイン」し,風景から微視的特徴まで,これまで存在していなかった細部を自動回帰的に合成することを可能にする。
実験により、WonderZoomは、品質とアライメントの両方で最先端のビデオと3Dモデルを大幅に上回っており、単一の画像からマルチスケールの3Dワールド作成を可能にしている。
生成したマルチスケール3D世界の映像とインタラクティブビューアをhttps://wonderzoom.github.io/で紹介する。
関連論文リスト
- Terra: Explorable Native 3D World Model with Point Latents [74.90179419859415]
本稿では,本質的な3次元潜伏空間における探索可能な環境を表現・生成する,ネイティブな3次元世界モデルTerraを提案する。
具体的には、3次元入力を潜在点表現に符号化する新しい点対ガウス変分オートエンコーダ(P2G-VAE)を提案する。
次に、潜伏点表現を生成するためのスパース点フローマッチングネットワーク(SPFlow)を導入し、同時に潜伏点の位置と特徴を識別する。
論文 参考訳(メタデータ) (2025-10-16T17:59:56Z) - Constructing a 3D Scene from a Single Image [31.11317559252235]
SceneFuse-3Dは、単一のトップダウンビューからコヒーレントな3Dシーンを合成するために設計されたトレーニング不要のフレームワークである。
入力画像を重なり合う領域に分解し、事前訓練された3Dオブジェクトジェネレータを用いてそれぞれを生成する。
このモジュラー設計により、3次元の監督や微調整を必要とせず、解像度のボトルネックを克服し、空間構造を維持できる。
論文 参考訳(メタデータ) (2025-05-21T17:10:47Z) - Optimizing 4D Gaussians for Dynamic Scene Video from Single Landscape Images [5.754780404074765]
一つの画像から4次元ガウス表現をモデル化することにより,ダイナミックシーン映像の完全な3次元空間を表現することを提案する。
私たちが知る限りでは、これは単一の風景画像から完全な3D空間を表現しながらアニメーションを考える最初の試みである。
論文 参考訳(メタデータ) (2025-04-04T06:51:39Z) - SynCity: Training-Free Generation of 3D Worlds [107.69875149880679]
テキスト記述から3次元世界を生成するためのトレーニング不要かつ最適化不要なアプローチであるSynCityを提案する。
3Dと2Dのジェネレータが組み合わさって、拡大するシーンを生成する方法を示す。
論文 参考訳(メタデータ) (2025-03-20T17:59:40Z) - Generative Gaussian Splatting: Generating 3D Scenes with Video Diffusion Priors [11.156009461711639]
GGS(Generative Gaussian Splatting)は、3D表現と事前学習された遅延ビデオ拡散モデルを統合する新しい手法である。
本研究では,シーン合成のための2つの共通ベンチマークデータセットであるRealEstate10KとScanNet+について検討した。
論文 参考訳(メタデータ) (2025-03-17T15:24:04Z) - Hi3D: Pursuing High-Resolution Image-to-3D Generation with Video Diffusion Models [112.2625368640425]
High- resolution Image-to-3D model (Hi3D) はビデオ拡散に基づく新しいパラダイムであり、単一の画像を3D対応シーケンシャル画像生成としてマルチビュー画像に再定義する。
Hi3Dは事前に学習した映像拡散モデルを3D対応で強化し、低解像度のテクスチャディテールを持つマルチビュー画像を生成する。
論文 参考訳(メタデータ) (2024-09-11T17:58:57Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - GET3D: A Generative Model of High Quality 3D Textured Shapes Learned
from Images [72.15855070133425]
本稿では,複雑なトポロジ,リッチな幾何学的ディテール,高忠実度テクスチャを備えたExplicit Textured 3Dメッシュを直接生成する生成モデルであるGET3Dを紹介する。
GET3Dは、車、椅子、動物、バイク、人間キャラクターから建物まで、高品質な3Dテクスチャメッシュを生成することができる。
論文 参考訳(メタデータ) (2022-09-22T17:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。