論文の概要: ZeroScene: A Zero-Shot Framework for 3D Scene Generation from a Single Image and Controllable Texture Editing
- arxiv url: http://arxiv.org/abs/2509.23607v1
- Date: Sun, 28 Sep 2025 03:21:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.321741
- Title: ZeroScene: A Zero-Shot Framework for 3D Scene Generation from a Single Image and Controllable Texture Editing
- Title(参考訳): ZeroScene: 単一画像と制御可能なテクスチャ編集による3Dシーン生成のためのゼロショットフレームワーク
- Authors: Xiang Tang, Ruotong Li, Xiaopeng Fan,
- Abstract要約: 画像から3Dのシーン再構成とテクスチャ編集をゼロショットで行う新しいシステムを提案する。
ZeroSceneは、入力画像からオブジェクトレベルの2Dセグメンテーションと深度情報を抽出し、シーン内の空間的関係を推測する。
そして、ポイントクラウドの3Dおよび2Dプロジェクション損失を共同で最適化し、正確なシーンアライメントのためのオブジェクトのポーズを更新する。
- 参考スコア(独自算出の注目度): 36.098009720325436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of 3D content generation, single image scene reconstruction methods still struggle to simultaneously ensure the quality of individual assets and the coherence of the overall scene in complex environments, while texture editing techniques often fail to maintain both local continuity and multi-view consistency. In this paper, we propose a novel system ZeroScene, which leverages the prior knowledge of large vision models to accomplish both single image-to-3D scene reconstruction and texture editing in a zero-shot manner. ZeroScene extracts object-level 2D segmentation and depth information from input images to infer spatial relationships within the scene. It then jointly optimizes 3D and 2D projection losses of the point cloud to update object poses for precise scene alignment, ultimately constructing a coherent and complete 3D scene that encompasses both foreground and background. Moreover, ZeroScene supports texture editing of objects in the scene. By imposing constraints on the diffusion model and introducing a mask-guided progressive image generation strategy, we effectively maintain texture consistency across multiple viewpoints and further enhance the realism of rendered results through Physically Based Rendering (PBR) material estimation. Experimental results demonstrate that our framework not only ensures the geometric and appearance accuracy of generated assets, but also faithfully reconstructs scene layouts and produces highly detailed textures that closely align with text prompts.
- Abstract(参考訳): 3Dコンテンツ生成の分野では、単一画像シーン再構築手法は、複雑な環境下での個々の資産の品質と全体シーンのコヒーレンスを同時に確保するのに苦慮する一方で、テクスチャ編集技術は局所的な連続性とマルチビューの整合性を維持するのに失敗することが多い。
本稿では,画像から3次元のシーン再構成とテクスチャ編集の両方をゼロショット方式で実現するために,大規模な視覚モデルの事前知識を活用する新しいシステムZeroSceneを提案する。
ZeroSceneは、入力画像からオブジェクトレベルの2Dセグメンテーションと深度情報を抽出し、シーン内の空間的関係を推測する。
そして、ポイントクラウドの3Dおよび2Dプロジェクション損失を共同で最適化し、オブジェクトのポーズを正確なシーンアライメントのために更新し、最終的に前景と背景の両方を含む一貫性のある完全な3Dシーンを構築する。
さらに、ZeroSceneはシーン内のオブジェクトのテクスチャ編集をサポートする。
拡散モデルに制約を課し、マスク誘導プログレッシブ画像生成戦略を導入することにより、多視点にわたるテクスチャ一貫性を効果的に維持し、物理ベースレンダリング(PBR)素材推定によるレンダリング結果のリアリズムをさらに強化する。
実験結果から,本フレームワークは,生成した資産の幾何学的・外観的精度を保証するだけでなく,シーンレイアウトを忠実に再構築し,テキストプロンプトと密に整合した高度に詳細なテクスチャを生成する。
関連論文リスト
- Constructing a 3D Town from a Single Image [23.231661811526955]
3DTownは、単一のトップダウンビューからリアルで一貫性のある3Dシーンを合成するために設計された、トレーニング不要のフレームワークである。
入力画像を重なり合う領域に分解し、事前訓練された3Dオブジェクトジェネレータを用いてそれぞれを生成する。
以上の結果から,1枚の画像から高品質な3Dタウンジェネレーションが実現可能であることを示す。
論文 参考訳(メタデータ) (2025-05-21T17:10:47Z) - HiScene: Creating Hierarchical 3D Scenes with Isometric View Generation [50.206100327643284]
HiSceneは、2D画像生成と3Dオブジェクト生成のギャップを埋める新しい階層的なフレームワークである。
構成構造を維持しながら2次元表現に整合した3次元コンテンツを生成する。
論文 参考訳(メタデータ) (2025-04-17T16:33:39Z) - CAST: Component-Aligned 3D Scene Reconstruction from an RGB Image [44.8172828045897]
現在のメソッドはドメイン固有の制限や低品質のオブジェクト生成に悩まされることが多い。
本稿では,3次元シーンの復元と復元のための新しい手法であるCASTを提案する。
論文 参考訳(メタデータ) (2025-02-18T14:29:52Z) - BloomScene: Lightweight Structured 3D Gaussian Splatting for Crossmodal Scene Generation [54.12899218104669]
3Dシーンは非常に複雑な構造を持ち、出力が密度が高く、一貫性があり、必要な全ての構造を含むことを保証する必要がある。
現在の3Dシーン生成法は、事前訓練されたテキスト・画像拡散モデルと単眼深度推定器に依存している。
クロスモーダルシーン生成のための軽量な3次元ガウススプラッティングであるBloomSceneを提案する。
論文 参考訳(メタデータ) (2025-01-15T11:33:34Z) - Zero-Shot Multi-Object Scene Completion [59.325611678171974]
1枚のRGB-D画像から複雑なシーンにおける複数の見えない物体の完全な形状を復元する3Dシーン補完法を提案する。
提案手法は, 合成および実世界の両方のデータセットにおいて, 現在の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2024-03-21T17:59:59Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - Single-view 3D Scene Reconstruction with High-fidelity Shape and Texture [47.44029968307207]
本研究では,物体の形状とテクスチャを同時に高忠実度に再現する新しい枠組みを提案する。
提案手法は,SSR(Single-view Neural implicit Shape and Radiance Field)表現を用いて,明示的な3次元形状制御とボリュームレンダリングの両方を活用する。
我々のフレームワークの特徴は、単一のビュー3D再構成モデルにレンダリング機能をシームレスに統合しながら、きめ細かいテクスチャメッシュを生成する能力である。
論文 参考訳(メタデータ) (2023-11-01T11:46:15Z) - CompNVS: Novel View Synthesis with Scene Completion [83.19663671794596]
本稿では,スパースグリッドに基づくニューラルシーン表現を用いた生成パイプラインを提案する。
画像特徴を3次元空間に符号化し、幾何学的完備化ネットワークとその後のテクスチャ塗布ネットワークを用いて、欠落した領域を外挿する。
フォトリアリスティック画像列は、整合性関連微分可能レンダリングによって最終的に得られる。
論文 参考訳(メタデータ) (2022-07-23T09:03:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。