論文の概要: UrbanCraft: Urban View Extrapolation via Hierarchical Sem-Geometric Priors
- arxiv url: http://arxiv.org/abs/2505.23434v1
- Date: Thu, 29 May 2025 13:28:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.873376
- Title: UrbanCraft: Urban View Extrapolation via Hierarchical Sem-Geometric Priors
- Title(参考訳): UrbanCraft: 階層的なSem-Geometric Priorsによる都市ビュー外挿
- Authors: Tianhang Wang, Fan Lu, Sanqing Qu, Guo Yu, Shihang Du, Ya Wu, Yuan Huang, Guang Chen,
- Abstract要約: 都市景観の再現手法は、主に、訓練用カメラ軌道に近いビューを合成する補間ビュー合成設定に焦点を当てている。
従来の手法では画像拡散によって最適化されていたが、テキストのあいまいさや大きな見えない視角を処理できなかった。
我々は,階層的なセム幾何学的表現を付加した外挿ビュー合成問題を克服したUrbanCraftを設計する。
- 参考スコア(独自算出の注目度): 10.706273062956507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing neural rendering-based urban scene reconstruction methods mainly focus on the Interpolated View Synthesis (IVS) setting that synthesizes from views close to training camera trajectory. However, IVS can not guarantee the on-par performance of the novel view outside the training camera distribution (\textit{e.g.}, looking left, right, or downwards), which limits the generalizability of the urban reconstruction application. Previous methods have optimized it via image diffusion, but they fail to handle text-ambiguous or large unseen view angles due to coarse-grained control of text-only diffusion. In this paper, we design UrbanCraft, which surmounts the Extrapolated View Synthesis (EVS) problem using hierarchical sem-geometric representations serving as additional priors. Specifically, we leverage the partially observable scene to reconstruct coarse semantic and geometric primitives, establishing a coarse scene-level prior through an occupancy grid as the base representation. Additionally, we incorporate fine instance-level priors from 3D bounding boxes to enhance object-level details and spatial relationships. Building on this, we propose the \textbf{H}ierarchical \textbf{S}emantic-Geometric-\textbf{G}uided Variational Score Distillation (HSG-VSD), which integrates semantic and geometric constraints from pretrained UrbanCraft2D into the score distillation sampling process, forcing the distribution to be consistent with the observable scene. Qualitative and quantitative comparisons demonstrate the effectiveness of our methods on EVS problem.
- Abstract(参考訳): 既存のニューラルレンダリングに基づく都市シーン再構築手法は、主に、訓練カメラ軌道に近いビューから合成する補間ビュー合成(IVS)セッティングに焦点を当てている。
しかし、IVSは、トレーニングカメラの配置外(左、右、下向き)の新規ビューのオンパー性能を保証できないため、都市復興アプリケーションの一般化性が制限される。
従来の手法では画像拡散によって最適化されていたが、テキストのみの拡散の粗い制御のため、テキストあいまいさや大きな見えない視角の処理に失敗した。
本稿では,階層的なセム幾何学的表現を付加した外挿ビュー合成(EVS)問題を克服したUrbanCraftを設計する。
具体的には、部分観測可能なシーンを活用して、粗い意味と幾何学的プリミティブを再構築し、占有グリッドをベース表現として、粗いシーンレベルを確立する。
さらに,3次元境界ボックスからの細かなインスタンスレベルの先行情報を組み込んで,オブジェクトレベルの詳細と空間的関係性を高める。
そこで,本稿では,事前学習したUrbanCraft2Dからの意味的制約と幾何的制約をスコア抽出のプロセスに統合し,その分布を観測可能なシーンと整合させることを強制する,<textbf{H}ierarchical \textbf{S}emantic-Geometric-\textbf{G}uided Variational Score Distillation (HSG-VSD)を提案する。
定性的および定量的な比較は,EVS問題に対する手法の有効性を示す。
関連論文リスト
- Intern-GS: Vision Model Guided Sparse-View 3D Gaussian Splatting [95.61137026932062]
Intern-GSはスパースビューガウススプラッティングのプロセスを強化する新しいアプローチである。
Intern-GSは多様なデータセットにまたがって最先端のレンダリング品質を実現する。
論文 参考訳(メタデータ) (2025-05-27T05:17:49Z) - HAECcity: Open-Vocabulary Scene Understanding of City-Scale Point Clouds with Superpoint Graph Clustering [49.64902130083662]
階層的ボクサブ・アグノスティック・エキスパート・クラスタリング(HAEC)について,「それら」のラテン語の後に紹介する。
この高度にスケーラブルなアプローチを,SensatUrbanの都市規模データセット上でのオープン語彙シーン理解の最初の応用に適用する。
我々の技術は、高密度の都市3Dシーンでの複雑な操作を解き放ち、デジタル双生児の処理に新たな道を開くのに役立つ。
論文 参考訳(メタデータ) (2025-04-18T09:48:42Z) - Decompositional Neural Scene Reconstruction with Generative Diffusion Prior [64.71091831762214]
完全な形状と詳細なテクスチャを持つ3次元シーンの分解的再構成は、下流の応用に興味深い。
近年のアプローチでは、この問題に対処するために意味的あるいは幾何学的正則化が取り入れられているが、制約の少ない領域では著しく劣化している。
本稿では,SDS(Score Distillation Sampling)の形で拡散先行値を用いたDP-Reconを提案し,新しい視点下で個々の物体の神経表現を最適化する。
論文 参考訳(メタデータ) (2025-03-19T02:11:31Z) - How to Use Diffusion Priors under Sparse Views? [29.738350228085928]
Inline Prior Guided Score Matching is proposed to provide visual supervision over sparse view in 3D reconstruction。
提案手法は,最先端の復元品質を実現する。
論文 参考訳(メタデータ) (2024-12-03T07:31:54Z) - Efficient Depth-Guided Urban View Synthesis [52.841803876653465]
高速フィードフォワード推論とシーンごとのファインチューニングのための効率的な深層誘導型都市ビュー合成(EDUS)を提案する。
EDUSは、粗い入力画像から一般化可能な都市ビュー合成を可能にするためのガイダンスとして、ノイズの多い幾何学的先行情報を利用する。
その結果,EDUSは高速なテスト時間最適化と組み合わせることで,スパース・ビュー・セッティングにおける最先端性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-07-17T08:16:25Z) - VEGS: View Extrapolation of Urban Scenes in 3D Gaussian Splatting using Learned Priors [32.02774117064752]
本研究では,左,右,下などの視界の再構成を評価することで,外挿ビュー合成(EVS)問題に対処する。
我々の知る限りでは、都市景観再建におけるESV問題に最初に取り組む人物である。
論文 参考訳(メタデータ) (2024-07-03T09:23:13Z) - Know Your Neighbors: Improving Single-View Reconstruction via Spatial Vision-Language Reasoning [119.99066522299309]
KYNは、各点の密度を予測するために意味的および空間的文脈を理由として、単一視点シーン再構築のための新しい手法である。
その結果,KYNは3次元点ごとの密度の予測よりも3次元形状回復を改善することがわかった。
我々は,KITTI-360のシーンとオブジェクトの再構成における最先端の成果を達成し,以前の作業と比べてゼロショットの一般化が向上したことを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:59Z) - Neural 3D Scene Reconstruction with the Manhattan-world Assumption [58.90559966227361]
本稿では,多視点画像から3次元屋内シーンを再構築する課題について述べる。
平面的制約は、最近の暗黙の神経表現に基づく再構成手法に便利に組み込むことができる。
提案手法は, 従来の手法よりも3次元再構成品質に優れていた。
論文 参考訳(メタデータ) (2022-05-05T17:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。