論文の概要: Extend3D: Town-Scale 3D Generation
- arxiv url: http://arxiv.org/abs/2603.29387v1
- Date: Tue, 31 Mar 2026 07:55:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.27406
- Title: Extend3D: Town-Scale 3D Generation
- Title(参考訳): Extend3D: 町並みの3D世代
- Authors: Seungwoo Yoon, Jinmo Kim, Jaesik Park,
- Abstract要約: 1枚の画像から3Dシーンを生成するためのトレーニング不要パイプラインであるExtended3Dを提案する。
拡張潜在空間を重なり合うパッチに分割することにより、各パッチにオブジェクト中心の3D生成モデルを適用し、各ステップで結合する。
3次元リファインメントにおける3次元構造の不完全さをノイズとして扱うことにより,低騒音という概念による3次元合成が可能となる。
- 参考スコア(独自算出の注目度): 31.052455723067684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose Extend3D, a training-free pipeline for 3D scene generation from a single image, built upon an object-centric 3D generative model. To overcome the limitations of fixed-size latent spaces in object-centric models for representing wide scenes, we extend the latent space in the $x$ and $y$ directions. Then, by dividing the extended latent space into overlapping patches, we apply the object-centric 3D generative model to each patch and couple them at each time step. Since patch-wise 3D generation with image conditioning requires strict spatial alignment between image and latent patches, we initialize the scene using a point cloud prior from a monocular depth estimator and iteratively refine occluded regions through SDEdit. We discovered that treating the incompleteness of 3D structure as noise during 3D refinement enables 3D completion via a concept, which we term under-noising. Furthermore, to address the sub-optimality of object-centric models for sub-scene generation, we optimize the extended latent during denoising, ensuring that the denoising trajectories remain consistent with the sub-scene dynamics. To this end, we introduce 3D-aware optimization objectives for improved geometric structure and texture fidelity. We demonstrate that our method yields better results than prior methods, as evidenced by human preference and quantitative experiments.
- Abstract(参考訳): 本論文では,オブジェクト中心の3D生成モデルに基づいて,単一の画像から3Dシーンを生成するトレーニングフリーパイプラインであるExtended3Dを提案する。
ワイドシーンを表すオブジェクト中心モデルにおける固定サイズ潜在空間の制限を克服するために、この潜在空間を$x$および$y$方向で拡張する。
そして、拡張潜在空間を重なり合うパッチに分割することにより、各パッチにオブジェクト中心の3D生成モデルを適用し、各ステップでそれらを結合する。
画像条件付きパッチワイド3D生成では,画像と潜時パッチの間に厳密な空間的アライメントが要求されるため,単眼深度推定器から先行する点雲を用いてシーンを初期化し,SDEdit を用いて隠蔽領域を反復的に洗練する。
その結果,3次元補聴器の非完全性を3次元補聴器のノイズとして扱うことで,低ノイズ化という概念による3次元補聴を実現できることがわかった。
さらに、サブシーン生成のためのオブジェクト中心モデルのサブ最適性に対処するため、デノナイジング中の拡張潜在状態を最適化し、デノナイジング軌道がサブシーンダイナミクスと整合性を保つことを保証する。
この目的のために,幾何学的構造とテクスチャの忠実度を改善するための3D対応最適化手法を提案する。
我々は,人間の嗜好や定量的実験によって実証されたように,従来の方法よりも優れた結果が得られることを示す。
関連論文リスト
- Towards Geometric and Textural Consistency 3D Scene Generation via Single Image-guided Model Generation and Layout Optimization [14.673302810271219]
幾何学的表現と高品質なテクスチャ情報を用いた3次元シーン生成のための新しい3段階フレームワークを提案する。
提案手法は, 個々の3次元モデルの幾何学的精度とテクスチャ忠実度の観点から, 最先端の手法よりも優れているだけでなく, シーンレイアウト合成において大きな利点がある。
論文 参考訳(メタデータ) (2025-07-20T06:59:42Z) - Constructing a 3D Scene from a Single Image [31.11317559252235]
SceneFuse-3Dは、単一のトップダウンビューからコヒーレントな3Dシーンを合成するために設計されたトレーニング不要のフレームワークである。
入力画像を重なり合う領域に分解し、事前訓練された3Dオブジェクトジェネレータを用いてそれぞれを生成する。
このモジュラー設計により、3次元の監督や微調整を必要とせず、解像度のボトルネックを克服し、空間構造を維持できる。
論文 参考訳(メタデータ) (2025-05-21T17:10:47Z) - GaussianAnything: Interactive Point Cloud Flow Matching For 3D Object Generation [75.39457097832113]
本稿では,インタラクティブなポイントクラウド構造ラテント空間を備えたスケーラブルで高品質な3D生成を実現する,新しい3D生成フレームワークを提案する。
本フレームワークでは,複数ビューのRGB-D(epth)-N(ormal)レンダリングを入力として使用する変分オートエンコーダを,3次元形状情報を保存する独自のラテント空間設計を用いて構成する。
提案手法であるGaussianAnythingは,複数モード条件付き3D生成をサポートし,ポイントクラウド,キャプション,単一画像入力を可能にする。
論文 参考訳(メタデータ) (2024-11-12T18:59:32Z) - Enhancing Single Image to 3D Generation using Gaussian Splatting and Hybrid Diffusion Priors [17.544733016978928]
単一の画像から3Dオブジェクトを生成するには、野生で撮影された未ポーズのRGB画像から、目に見えない景色の完全な3D形状とテクスチャを推定する必要がある。
3次元オブジェクト生成の最近の進歩は、物体の形状とテクスチャを再構築する技術を導入している。
本稿では, この限界に対応するために, 2次元拡散モデルと3次元拡散モデルとのギャップを埋めることを提案する。
論文 参考訳(メタデータ) (2024-10-12T10:14:11Z) - GSD: View-Guided Gaussian Splatting Diffusion for 3D Reconstruction [52.04103235260539]
単一視点からの3次元オブジェクト再構成のためのガウススプティング表現に基づく拡散モデル手法を提案する。
モデルはGS楕円体の集合で表される3Dオブジェクトを生成することを学習する。
最終的な再構成されたオブジェクトは、高品質な3D構造とテクスチャを持ち、任意のビューで効率的にレンダリングできる。
論文 参考訳(メタデータ) (2024-07-05T03:43:08Z) - LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation [73.36690511083894]
本稿では,LN3Diffと呼ばれる新しいフレームワークを導入し,統一された3次元拡散パイプラインに対処する。
提案手法では,3次元アーキテクチャと変分オートエンコーダを用いて,入力画像を構造化されたコンパクトな3次元潜在空間に符号化する。
3次元生成のためのShapeNetの最先端性能を実現し,モノクロ3次元再構成と条件付き3次元生成において優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-18T17:54:34Z) - 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。