論文の概要: Self-Evolving 3D Scene Generation from a Single Image
- arxiv url: http://arxiv.org/abs/2512.08905v1
- Date: Tue, 09 Dec 2025 18:44:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:08.098982
- Title: Self-Evolving 3D Scene Generation from a Single Image
- Title(参考訳): 単一画像からの自己進化型3次元シーン生成
- Authors: Kaizhi Zheng, Yue Fan, Jing Gu, Zishuo Xu, Xuehai He, Xin Eric Wang,
- Abstract要約: EvoSceneはトレーニング不要のフレームワークで、単一の画像から完全な3Dシーンを徐々に再構築する。
EvoSceneは2Dドメインと3Dドメインを交互に交換し、構造と外観の両方を徐々に改善する。
- 参考スコア(独自算出の注目度): 44.87957263540352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating high-quality, textured 3D scenes from a single image remains a fundamental challenge in vision and graphics. Recent image-to-3D generators recover reasonable geometry from single views, but their object-centric training limits generalization to complex, large-scale scenes with faithful structure and texture. We present EvoScene, a self-evolving, training-free framework that progressively reconstructs complete 3D scenes from single images. The key idea is combining the complementary strengths of existing models: geometric reasoning from 3D generation models and visual knowledge from video generation models. Through three iterative stages--Spatial Prior Initialization, Visual-guided 3D Scene Mesh Generation, and Spatial-guided Novel View Generation--EvoScene alternates between 2D and 3D domains, gradually improving both structure and appearance. Experiments on diverse scenes demonstrate that EvoScene achieves superior geometric stability, view-consistent textures, and unseen-region completion compared to strong baselines, producing ready-to-use 3D meshes for practical applications.
- Abstract(参考訳): 高品質でテクスチャ化された3Dシーンを単一の画像から生成することは、視覚とグラフィックスの根本的な課題である。
最近のイメージ・ツー・3Dジェネレータは、単一のビューから合理的な幾何学を回復するが、それらのオブジェクト中心のトレーニングは、忠実な構造とテクスチャを持つ複雑な大規模シーンに一般化を制限している。
EvoSceneは、単一の画像から完全な3Dシーンを段階的に再構築する、自己進化型、トレーニング不要なフレームワークである。
鍵となる考え方は、既存のモデルの相補的な強み、すなわち、3次元生成モデルからの幾何学的推論と、ビデオ生成モデルからの視覚的知識を組み合わせることである。
Spatial Prior Initialization, Visual-Guided 3D Scene Mesh Generation, and Space-Guided Novel View Generation--EvoScene alternates between 2D and 3D domain, and gradually improve both structure and appearance。
多様な場面での実験では、EvoSceneは強力なベースラインに比べて優れた幾何学的安定性、ビュー一貫性のあるテクスチャ、未確認領域の完成を実現し、実用的な用途に使える3Dメッシュを生成する。
関連論文リスト
- Photo3D: Advancing Photorealistic 3D Generation through Structure-Aligned Detail Enhancement [12.855027334688382]
Photo3Dは、GPT-4o画像モデル画像データによって駆動される3D生成を促進するためのフレームワークである。
本稿では,知覚的特徴適応とセマンティック構造マッチングを利用して外観整合性を強制する,現実的な詳細強化手法を提案する。
提案手法は,異なる3Dネイティブジェネレータに対して汎用的であり,幾何学的テクスチャ結合とデカップリングされた3Dネイティブジェネレータの最適化を容易にするための専用トレーニング戦略を提案する。
論文 参考訳(メタデータ) (2025-12-09T12:33:48Z) - WorldGrow: Generating Infinite 3D World [75.81531067447203]
我々は、無限に拡張可能な3D世界、すなわちコヒーレントな幾何学と現実的な外観を持つ大規模で連続的な環境を生み出すという課題に取り組む。
本研究では,非有界な3次元シーン合成のための階層的フレームワークWorldGrowを提案する。
提案手法は,(1)高品質なシーンブロックを抽出し,シーン生成に適した3D構造化潜在表現を作成するデータキュレーションパイプライン,(2)コンテキスト認識シーン拡張を可能にする3Dブロックインペイント機構,(3)グローバルなレイアウトの妥当性と局所幾何学的/音声的忠実性の両立を保証する粗大かつ微細な生成戦略,の3つのコアコンポーネントを特徴とする。
論文 参考訳(メタデータ) (2025-10-24T17:39:52Z) - Constructing a 3D Scene from a Single Image [31.11317559252235]
SceneFuse-3Dは、単一のトップダウンビューからコヒーレントな3Dシーンを合成するために設計されたトレーニング不要のフレームワークである。
入力画像を重なり合う領域に分解し、事前訓練された3Dオブジェクトジェネレータを用いてそれぞれを生成する。
このモジュラー設計により、3次元の監督や微調整を必要とせず、解像度のボトルネックを克服し、空間構造を維持できる。
論文 参考訳(メタデータ) (2025-05-21T17:10:47Z) - Hi3D: Pursuing High-Resolution Image-to-3D Generation with Video Diffusion Models [112.2625368640425]
High- resolution Image-to-3D model (Hi3D) はビデオ拡散に基づく新しいパラダイムであり、単一の画像を3D対応シーケンシャル画像生成としてマルチビュー画像に再定義する。
Hi3Dは事前に学習した映像拡散モデルを3D対応で強化し、低解像度のテクスチャディテールを持つマルチビュー画像を生成する。
論文 参考訳(メタデータ) (2024-09-11T17:58:57Z) - ID-to-3D: Expressive ID-guided 3D Heads via Score Distillation Sampling [96.87575334960258]
ID-to-3D(ID-to-3D)は、不整合表現を用いたIDとテキスト誘導型3次元頭部を生成する方法である。
前例のないアイデンティティ一貫性と高品質なテクスチャと幾何生成を実現する。
論文 参考訳(メタデータ) (2024-05-26T13:36:45Z) - 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - Single-view 3D Scene Reconstruction with High-fidelity Shape and Texture [47.44029968307207]
本研究では,物体の形状とテクスチャを同時に高忠実度に再現する新しい枠組みを提案する。
提案手法は,SSR(Single-view Neural implicit Shape and Radiance Field)表現を用いて,明示的な3次元形状制御とボリュームレンダリングの両方を活用する。
我々のフレームワークの特徴は、単一のビュー3D再構成モデルにレンダリング機能をシームレスに統合しながら、きめ細かいテクスチャメッシュを生成する能力である。
論文 参考訳(メタデータ) (2023-11-01T11:46:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。