論文の概要: MeSS: City Mesh-Guided Outdoor Scene Generation with Cross-View Consistent Diffusion
- arxiv url: http://arxiv.org/abs/2508.15169v1
- Date: Thu, 21 Aug 2025 02:16:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.145748
- Title: MeSS: City Mesh-Guided Outdoor Scene Generation with Cross-View Consistent Diffusion
- Title(参考訳): MeSS: クロスビュー・コンシステント拡散を用いた都市メッシュ誘導屋外シーン生成
- Authors: Xuyang Chen, Zhijun Zhai, Kaixuan Zhou, Zengmao Wang, Jianan He, Dong Wang, Yanfeng Zhang, mingwei Sun, Rüdiger Westermann, Konrad Schindler, Liqiu Meng,
- Abstract要約: メッシュモデルは、多くの都市で利用できるようになったが、現実的なテクスチャの欠如により、仮想都市ナビゲーションや自動運転への応用は制限されている。
本稿では,都市メッシュモデルを用いた高品質でスタイル整合な屋外シーンを生成するためのSplat MeSS(Meshbased Scene Synthesis)を提案する。
- 参考スコア(独自算出の注目度): 28.8448237516025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mesh models have become increasingly accessible for numerous cities; however, the lack of realistic textures restricts their application in virtual urban navigation and autonomous driving. To address this, this paper proposes MeSS (Meshbased Scene Synthesis) for generating high-quality, styleconsistent outdoor scenes with city mesh models serving as the geometric prior. While image and video diffusion models can leverage spatial layouts (such as depth maps or HD maps) as control conditions to generate street-level perspective views, they are not directly applicable to 3D scene generation. Video diffusion models excel at synthesizing consistent view sequences that depict scenes but often struggle to adhere to predefined camera paths or align accurately with rendered control videos. In contrast, image diffusion models, though unable to guarantee cross-view visual consistency, can produce more geometry-aligned results when combined with ControlNet. Building on this insight, our approach enhances image diffusion models by improving cross-view consistency. The pipeline comprises three key stages: first, we generate geometrically consistent sparse views using Cascaded Outpainting ControlNets; second, we propagate denser intermediate views via a component dubbed AGInpaint; and third, we globally eliminate visual inconsistencies (e.g., varying exposure) using the GCAlign module. Concurrently with generation, a 3D Gaussian Splatting (3DGS) scene is reconstructed by initializing Gaussian balls on the mesh surface. Our method outperforms existing approaches in both geometric alignment and generation quality. Once synthesized, the scene can be rendered in diverse styles through relighting and style transfer techniques.
- Abstract(参考訳): メッシュモデルは、多くの都市で利用できるようになったが、現実的なテクスチャの欠如により、仮想都市ナビゲーションや自動運転への応用は制限されている。
そこで本研究では,都市メッシュモデルを用いた高品質でスタイル整合な屋外シーンを生成するための,メシュベースシーン合成(Meshbased Scene Synthesis)を提案する。
画像とビデオの拡散モデルは、空間配置(深度マップやHDマップなど)を制御条件として利用してストリートレベルの視点ビューを生成するが、これらは直接3Dシーン生成には適用できない。
ビデオ拡散モデルは、シーンを描写する一貫したビューシーケンスの合成に優れるが、しばしば事前に定義されたカメラパスに固執したり、レンダリングされた制御ビデオと正確に整合するのに苦労する。
対照的に、画像拡散モデルは、クロスビューの視覚的一貫性を保証できないが、ControlNetと組み合わせると、より幾何学的に整合した結果が得られる。
この知見に基づいて、我々は画像拡散モデルを強化し、ビュー間の整合性を改善する。
まず、Cascaded Outpainting ControlNetsを使用して幾何学的に一貫したスパースビューを生成し、次に、AGInpaintと呼ばれるコンポーネントを介してより密な中間ビューを伝搬し、次に、GCAlignモジュールを使用して視覚的不整合(例えば、様々な露出)をグローバルに排除する。
生成と同時に、メッシュ表面にガウス球を初期化することにより、3Dガウススプレイティング(3DGS)シーンを再構成する。
本手法は、幾何学的アライメントと生成品質の両方において既存の手法より優れている。
一度合成されたシーンは、リライティングやスタイル転送技術によって様々なスタイルで表現できる。
関連論文リスト
- ExScene: Free-View 3D Scene Reconstruction with Gaussian Splatting from a Single Image [4.366356163044466]
既存の方法は、単一視点からの視野が狭い低一貫性の3Dシーンを再構成するためにしばしば制限される。
任意の単視点画像から没入型3Dシーンを再構成する2段階パイプラインであるExSceneを提案する。
ExSceneは単一ビュー入力のみを使用して一貫した没入的なシーン再構築を実現する。
論文 参考訳(メタデータ) (2025-03-31T09:33:22Z) - EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis [61.1662426227688]
既存のNeRFおよび3DGSベースの手法は、フォトリアリスティックレンダリングを実現する上で有望な結果を示すが、スローでシーンごとの最適化が必要である。
本稿では,都市景観を対象とした効率的な3次元ガウススプレイティングモデルEVolSplatを紹介する。
論文 参考訳(メタデータ) (2025-03-26T02:47:27Z) - NovelGS: Consistent Novel-view Denoising via Large Gaussian Reconstruction Model [57.92709692193132]
NovelGSは、スパースビュー画像が与えられたガウススプラッティングの拡散モデルである。
我々は3Dガウスを生成するためにトランスフォーマーネットワークを経由する新しい視点を利用する。
論文 参考訳(メタデータ) (2024-11-25T07:57:17Z) - DreamMesh4D: Video-to-4D Generation with Sparse-Controlled Gaussian-Mesh Hybrid Representation [10.250715657201363]
本稿では,メッシュ表現と幾何スキン技術を組み合わせた新しいフレームワークDreamMesh4Dを紹介し,モノクロビデオから高品質な4Dオブジェクトを生成する。
我々の手法は現代のグラフィックパイプラインと互換性があり、3Dゲームや映画産業におけるその可能性を示している。
論文 参考訳(メタデータ) (2024-10-09T10:41:08Z) - Streetscapes: Large-scale Consistent Street View Generation Using Autoregressive Video Diffusion [61.929653153389964]
そこで本研究では,街並みを連続的に合成した街並みの景観を再現する手法を提案する。
我々の手法は、視覚的品質と一貫性を維持しつつ、複数の都市ブロックにまたがる、はるかに長い範囲のカメラ軌道にスケールすることができる。
論文 参考訳(メタデータ) (2024-07-18T17:56:30Z) - Hybrid Explicit Representation for Ultra-Realistic Head Avatars [55.829497543262214]
我々は,超現実的な頭部アバターを作成し,それをリアルタイムにレンダリングする新しい手法を提案する。
UVマップされた3Dメッシュは滑らかな表面のシャープでリッチなテクスチャを捉えるのに使われ、3Dガウス格子は複雑な幾何学構造を表現するために用いられる。
モデル化された結果が最先端のアプローチを上回る実験を行ないました。
論文 参考訳(メタデータ) (2024-03-18T04:01:26Z) - Sat2Scene: 3D Urban Scene Generation from Satellite Images with Diffusion [77.34078223594686]
本稿では,3次元スパース表現に拡散モデルを導入し,それらをニューラルレンダリング技術と組み合わせることで,直接3次元シーン生成のための新しいアーキテクチャを提案する。
具体的には、まず3次元拡散モデルを用いて、所定の幾何学の点レベルのテクスチャ色を生成し、次にフィードフォワード方式でシーン表現に変換する。
2つの都市規模データセットを用いた実験により,衛星画像から写真リアルなストリートビュー画像シーケンスとクロスビュー都市シーンを生成する能力を示した。
論文 参考訳(メタデータ) (2024-01-19T16:15:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。