論文の概要: ScenDi: 3D-to-2D Scene Diffusion Cascades for Urban Generation
- arxiv url: http://arxiv.org/abs/2601.15221v1
- Date: Wed, 21 Jan 2026 17:53:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.482374
- Title: ScenDi: 3D-to-2D Scene Diffusion Cascades for Urban Generation
- Title(参考訳): ScenDi:都市における3次元から2次元の拡散カスケード
- Authors: Hanlei Guo, Jiahao Shao, Xinya Chen, Xiyang Tan, Sheng Miao, Yujun Shen, Yiyi Liao,
- Abstract要約: 本研究では,3次元拡散モデルと2次元拡散モデルを統合した都市景観生成手法であるScenDiを提案する。
粗い3Dシーンを2Dビデオ拡散のガイダンスとして活用することにより、ScenDiは入力条件に基づいて所望のシーンを生成し、正確なカメラ軌道に順応する。
- 参考スコア(独自算出の注目度): 53.049890350639366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in 3D object generation using diffusion models have achieved remarkable success, but generating realistic 3D urban scenes remains challenging. Existing methods relying solely on 3D diffusion models tend to suffer a degradation in appearance details, while those utilizing only 2D diffusion models typically compromise camera controllability. To overcome this limitation, we propose ScenDi, a method for urban scene generation that integrates both 3D and 2D diffusion models. We first train a 3D latent diffusion model to generate 3D Gaussians, enabling the rendering of images at a relatively low resolution. To enable controllable synthesis, this 3DGS generation process can be optionally conditioned by specifying inputs such as 3d bounding boxes, road maps, or text prompts. Then, we train a 2D video diffusion model to enhance appearance details conditioned on rendered images from the 3D Gaussians. By leveraging the coarse 3D scene as guidance for 2D video diffusion, ScenDi generates desired scenes based on input conditions and successfully adheres to accurate camera trajectories. Experiments on two challenging real-world datasets, Waymo and KITTI-360, demonstrate the effectiveness of our approach.
- Abstract(参考訳): 近年,拡散モデルによる3次元オブジェクト生成の進歩は目覚ましい成功を収めているが,現実的な3次元都市シーンの生成はいまだに困難である。
既存の3次元拡散モデルにのみ依存する手法は外観の細部が劣化する傾向にあり、2次元拡散モデルのみがカメラの制御性を損なうのが一般的である。
この制限を克服するために,3次元と2次元の拡散モデルを統合した都市シーン生成手法であるScenDiを提案する。
まず3次元ラテント拡散モデルを用いて3次元ガウスモデルを生成し,比較的低解像度で画像のレンダリングを可能にする。
制御可能な合成を可能にするために、この3DGS生成プロセスは、3d境界ボックス、道路地図、テキストプロンプトなどの入力を指定することで任意に条件付けすることができる。
そして,3次元ガウス画像のレンダリング画像に規定された外観の詳細を高めるために,2次元映像拡散モデルを訓練する。
粗い3Dシーンを2Dビデオ拡散のガイダンスとして活用することにより、ScenDiは入力条件に基づいて所望のシーンを生成し、正確なカメラ軌道に順応する。
WaymoとKITTI-360という2つの挑戦的な実世界のデータセットの実験は、我々のアプローチの有効性を実証している。
関連論文リスト
- Kiss3DGen: Repurposing Image Diffusion Models for 3D Asset Generation [15.374873279207623]
本稿では,3Dオブジェクトの生成,編集,拡張を行う効率的なフレームワークであるKiss3DGen(Keep It Simple and Straightforward in 3D Generation)を紹介する。
具体的には,多視点画像とその対応する正規写像からなるタイル付き表現である'3D Bundle Image'を生成するために拡散モデルを微調整する。
この簡単な方法は、3次元生成問題を2次元画像生成タスクに効果的に変換し、事前訓練された拡散モデルにおける知識の利用を最大化する。
論文 参考訳(メタデータ) (2025-03-03T10:07:19Z) - Director3D: Real-world Camera Trajectory and 3D Scene Generation from Text [61.9973218744157]
実世界の3Dシーンと適応カメラトラジェクトリの両方を生成するように設計された,堅牢なオープンワールドテキスト・ツー・3D生成フレームワークであるDirector3Dを紹介する。
Director3Dは既存の手法よりも優れており、実世界の3D生成において優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-06-25T14:42:51Z) - Pyramid Diffusion for Fine 3D Large Scene Generation [56.00726092690535]
拡散モデルは2次元画像と小型3次元オブジェクトの生成において顕著な結果を示した。
大規模な3Dシーンの合成への応用はめったに研究されていない。
本稿では,大規模拡散モデルを用いて,高品質な屋外シーンを段階的に生成するフレームワークであるPraamid Discrete Diffusion Model (PDD)を紹介する。
論文 参考訳(メタデータ) (2023-11-20T11:24:21Z) - RenderDiffusion: Image Diffusion for 3D Reconstruction, Inpainting and
Generation [68.06991943974195]
単分子2次元観察のみを用いて学習した3次元生成と推論のための最初の拡散モデルであるRenderDiffusionを提案する。
FFHQ,AFHQ,ShapeNet,CLEVRのデータセット上でRenderDiffusionを評価し,3Dシーンの生成と2D画像からの3Dシーンの推測の競合性能を示した。
論文 参考訳(メタデータ) (2022-11-17T20:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。