論文の概要: Towards Geometric and Textural Consistency 3D Scene Generation via Single Image-guided Model Generation and Layout Optimization
- arxiv url: http://arxiv.org/abs/2507.14841v1
- Date: Sun, 20 Jul 2025 06:59:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.08432
- Title: Towards Geometric and Textural Consistency 3D Scene Generation via Single Image-guided Model Generation and Layout Optimization
- Title(参考訳): 画像誘導モデル生成とレイアウト最適化による幾何学的・テクスチュラルな3次元シーン生成に向けて
- Authors: Xiang Tang, Ruotong Li, Xiaopeng Fan,
- Abstract要約: 幾何学的表現と高品質なテクスチャ情報を用いた3次元シーン生成のための新しい3段階フレームワークを提案する。
提案手法は, 個々の3次元モデルの幾何学的精度とテクスチャ忠実度の観点から, 最先端の手法よりも優れているだけでなく, シーンレイアウト合成において大きな利点がある。
- 参考スコア(独自算出の注目度): 14.673302810271219
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, 3D generation has made great strides in both academia and industry. However, generating 3D scenes from a single RGB image remains a significant challenge, as current approaches often struggle to ensure both object generation quality and scene coherence in multi-object scenarios. To overcome these limitations, we propose a novel three-stage framework for 3D scene generation with explicit geometric representations and high-quality textural details via single image-guided model generation and spatial layout optimization. Our method begins with an image instance segmentation and inpainting phase, which recovers missing details of occluded objects in the input images, thereby achieving complete generation of foreground 3D assets. Subsequently, our approach captures the spatial geometry of reference image by constructing pseudo-stereo viewpoint for camera parameter estimation and scene depth inference, while employing a model selection strategy to ensure optimal alignment between the 3D assets generated in the previous step and the input. Finally, through model parameterization and minimization of the Chamfer distance between point clouds in 3D and 2D space, our approach optimizes layout parameters to produce an explicit 3D scene representation that maintains precise alignment with input guidance image. Extensive experiments on multi-object scene image sets have demonstrated that our approach not only outperforms state-of-the-art methods in terms of geometric accuracy and texture fidelity of individual generated 3D models, but also has significant advantages in scene layout synthesis.
- Abstract(参考訳): 近年、3D世代は学術と産業の両方で大きな進歩を遂げている。
しかし、単一のRGB画像から3Dシーンを生成することは大きな課題であり、現在のアプローチでは、オブジェクト生成の品質とシーンコヒーレンスの両方をマルチオブジェクトのシナリオで確実にするためにしばしば苦労している。
これらの制約を克服するため,画像誘導モデル生成と空間配置最適化により,鮮明な幾何学的表現と高品質なテクスチャ細部を有する3次元シーン生成のための新しい3段階フレームワークを提案する。
提案手法は,入力画像中の隠蔽オブジェクトの欠落の詳細を復元し,前景3Dアセットの完全な生成を実現する画像インスタンスのセグメンテーションとインペインティングフェーズから始める。
その後、カメラパラメータ推定とシーン深度推定のための擬似ステレオ視点を構築し、モデル選択戦略を用いて、前ステップで生成された3Dアセットと入力との最適アライメントを確保することにより、参照画像の空間的幾何学を捉える。
最後に、3次元空間と2次元空間における点雲間のチャムファー距離のモデルパラメータ化と最小化により、レイアウトパラメータを最適化し、入力誘導画像との正確な整合性を維持する明示的な3次元シーン表現を生成する。
多目的シーン画像集合に対する大規模な実験により,本手法は個々の生成した3次元モデルの幾何的精度とテクスチャ忠実度において最先端の手法より優れるだけでなく,シーンレイアウト合成において有意な優位性を有することが示された。
関連論文リスト
- Constructing a 3D Town from a Single Image [23.231661811526955]
3DTownは、単一のトップダウンビューからリアルで一貫性のある3Dシーンを合成するために設計された、トレーニング不要のフレームワークである。
入力画像を重なり合う領域に分解し、事前訓練された3Dオブジェクトジェネレータを用いてそれぞれを生成する。
以上の結果から,1枚の画像から高品質な3Dタウンジェネレーションが実現可能であることを示す。
論文 参考訳(メタデータ) (2025-05-21T17:10:47Z) - F3D-Gaus: Feed-forward 3D-aware Generation on ImageNet with Cycle-Aggregative Gaussian Splatting [35.625593119642424]
本稿では,モノケプラーデータセットから3次元認識を一般化する問題に取り組む。
画素整列型ガウススプラッティングに基づく新しいフィードフォワードパイプラインを提案する。
また,学習した3次元表現において,クロスビューの一貫性を強制する自己教師付きサイクル集約的制約を導入する。
論文 参考訳(メタデータ) (2025-01-12T04:44:44Z) - Wonderland: Navigating 3D Scenes from a Single Image [43.99037613068823]
本研究では,映像拡散モデルからの潜伏分を利用した大規模再構成モデルを導入し,映像の3次元ガウススプラッティングをフィードフォワードで予測する。
プログレッシブ・ラーニング・ストラテジーを用いて3次元再構成モデルをトレーニングし,高品質でワイドスコープ,ジェネリックな3次元シーンの効率的な生成を可能にする。
論文 参考訳(メタデータ) (2024-12-16T18:58:17Z) - GaussianAnything: Interactive Point Cloud Flow Matching For 3D Object Generation [75.39457097832113]
本稿では,インタラクティブなポイントクラウド構造ラテント空間を備えたスケーラブルで高品質な3D生成を実現する,新しい3D生成フレームワークを提案する。
本フレームワークでは,複数ビューのRGB-D(epth)-N(ormal)レンダリングを入力として使用する変分オートエンコーダを,3次元形状情報を保存する独自のラテント空間設計を用いて構成する。
提案手法であるGaussianAnythingは,複数モード条件付き3D生成をサポートし,ポイントクラウド,キャプション,単一画像入力を可能にする。
論文 参考訳(メタデータ) (2024-11-12T18:59:32Z) - DreamPolish: Domain Score Distillation With Progressive Geometry Generation [66.94803919328815]
本稿では,高精細な幾何学と高品質なテクスチャの創出に優れたテキスト・ツー・3D生成モデルであるDreamPolishを紹介する。
幾何構成フェーズでは, 合成過程の安定性を高めるために, 複数のニューラル表現を利用する。
テクスチャ生成フェーズでは、そのような領域に向けて神経表現を導くために、新しいスコア蒸留、すなわちドメインスコア蒸留(DSD)を導入する。
論文 参考訳(メタデータ) (2024-11-03T15:15:01Z) - 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。