論文の概要: MuDG: Taming Multi-modal Diffusion with Gaussian Splatting for Urban Scene Reconstruction
- arxiv url: http://arxiv.org/abs/2503.10604v1
- Date: Thu, 13 Mar 2025 17:48:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:52:30.543463
- Title: MuDG: Taming Multi-modal Diffusion with Gaussian Splatting for Urban Scene Reconstruction
- Title(参考訳): MuDG : ガウススプラッティングを用いた都市景観再構築のためのマルチモーダル拡散のモデル化
- Authors: Yingshuang Zou, Yikang Ding, Chuanrui Zhang, Jiazhe Guo, Bohan Li, Xiaoyang Lyu, Feiyang Tan, Xiaojuan Qi, Haoqian Wang,
- Abstract要約: MuDGはマルチモーダル拡散モデルとガウススプラッティング(GS)を統合した革新的なフレームワークである。
我々は,MDGが再現性および光現実性合成品質の両方において,既存の手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 44.592566642185425
- License:
- Abstract: Recent breakthroughs in radiance fields have significantly advanced 3D scene reconstruction and novel view synthesis (NVS) in autonomous driving. Nevertheless, critical limitations persist: reconstruction-based methods exhibit substantial performance deterioration under significant viewpoint deviations from training trajectories, while generation-based techniques struggle with temporal coherence and precise scene controllability. To overcome these challenges, we present MuDG, an innovative framework that integrates Multi-modal Diffusion model with Gaussian Splatting (GS) for Urban Scene Reconstruction. MuDG leverages aggregated LiDAR point clouds with RGB and geometric priors to condition a multi-modal video diffusion model, synthesizing photorealistic RGB, depth, and semantic outputs for novel viewpoints. This synthesis pipeline enables feed-forward NVS without computationally intensive per-scene optimization, providing comprehensive supervision signals to refine 3DGS representations for rendering robustness enhancement under extreme viewpoint changes. Experiments on the Open Waymo Dataset demonstrate that MuDG outperforms existing methods in both reconstruction and synthesis quality.
- Abstract(参考訳): 放射界の最近のブレークスルーは、自律運転における3次元シーン再構成と新規ビュー合成(NVS)を大きく進歩させた。
再現に基づく手法は、訓練軌跡から大きく逸脱した視点でかなりの性能劣化を示す一方、世代ベースの手法は時間的コヒーレンスと正確なシーン制御性に苦しむ。
これらの課題を克服するために,都市景観再構築のための多モード拡散モデルとガウススプラッティング(GS)を統合する革新的なフレームワーク MuDG を提案する。
MuDGは、集積されたLiDAR点雲をRGBと幾何学的先行値で利用し、マルチモーダルビデオ拡散モデル(英語版)を条件とし、フォトリアリスティックなRGB、深さ、セマンティックアウトプットを新しい視点で合成する。
この合成パイプラインは、計算集約的なシーンごとの最適化なしにフィードフォワードNVSを可能にし、極端な視点変化の下で堅牢性向上をレンダリングするための3DGS表現を洗練するための包括的な監視信号を提供する。
Open Waymo Datasetの実験では、MuDGは再現性と合成品質の両方において既存の手法より優れていることが示されている。
関連論文リスト
- DGTR: Distributed Gaussian Turbo-Reconstruction for Sparse-View Vast Scenes [81.56206845824572]
新規ビュー合成(NVS)アプローチは、広大なシーン再構築において重要な役割を担っている。
大規模な環境下では、復元の質が悪くなる場合が少なくない。
本稿では,スパース・ビュー・ワイド・シーンのための効率的なガウス再構成のための分散フレームワークであるDGTRを提案する。
論文 参考訳(メタデータ) (2024-11-19T07:51:44Z) - MCGS: Multiview Consistency Enhancement for Sparse-View 3D Gaussian Radiance Fields [73.49548565633123]
3Dガウシアンによって表現される放射場は、高いトレーニング効率と高速レンダリングの両方を提供する、新しいビューの合成に優れている。
既存の手法では、高密度推定ネットワークからの奥行き先を組み込むことが多いが、入力画像に固有の多視点一貫性を見落としている。
本稿では,3次元ガウス・スプレイティング(MCGS)に基づくビュー・フレームワークを提案し,スパークス・インプット・ビューからシーンを再構築する。
論文 参考訳(メタデータ) (2024-10-15T08:39:05Z) - GaRField++: Reinforced Gaussian Radiance Fields for Large-Scale 3D Scene Reconstruction [1.7624442706463355]
本稿では,3次元ガウススプラッティングに基づく大規模シーン再構築のための新しい枠組みを提案する(3DGS)。
スケーラビリティ問題に対処するため,大規模シーンを複数のセルに分割し,各セルの候補ポイントクラウドとカメラビューとを相関させる。
本研究では,大規模シーン再構成の最先端手法よりも連続的に高忠実度レンダリング結果を生成することを示す。
論文 参考訳(メタデータ) (2024-09-19T13:43:31Z) - Evaluating Modern Approaches in 3D Scene Reconstruction: NeRF vs Gaussian-Based Methods [4.6836510920448715]
本研究では,3次元シーン再構成におけるニューラルレージアン場(NeRF)とガウス法(Gaussian-based method)の機能について検討する。
我々は,追跡精度,マッピング忠実度,ビュー合成に基づく性能評価を行った。
発見によると、NeRFはビュー合成に優れており、既存のデータから新しい視点を生成するユニークな機能を提供する。
論文 参考訳(メタデータ) (2024-08-08T07:11:57Z) - Wild-GS: Real-Time Novel View Synthesis from Unconstrained Photo Collections [30.321151430263946]
本稿では、制約のない写真コレクションに最適化された3DGSの革新的な適応であるWild-GSについて述べる。
Wild-GSは、それぞれの3Dガウスの出現を、その固有の材料特性、大域照明と画像当たりのカメラ特性、反射率の点レベルの局所的ばらつきによって決定する。
この斬新な設計は、参照ビューの高周波詳細外観を3次元空間に効果的に転送し、トレーニングプロセスを大幅に高速化する。
論文 参考訳(メタデータ) (2024-06-14T19:06:07Z) - Motion-aware 3D Gaussian Splatting for Efficient Dynamic Scene Reconstruction [89.53963284958037]
動的シーン再構築のための新しい動き認識拡張フレームワークを提案する。
具体的には,まず3次元ガウス運動と画素レベルの流れの対応性を確立する。
より厳密な最適化問題を示す先行的な変形に基づくパラダイムに対して,過渡対応変形補助モジュールを提案する。
論文 参考訳(メタデータ) (2024-03-18T03:46:26Z) - GS-IR: 3D Gaussian Splatting for Inverse Rendering [71.14234327414086]
3次元ガウス散乱(GS)に基づく新しい逆レンダリング手法GS-IRを提案する。
我々は、未知の照明条件下で撮影された多視点画像からシーン形状、表面物質、環境照明を推定するために、新しいビュー合成のための最高のパフォーマンス表現であるGSを拡張した。
フレキシブルかつ表現力のあるGS表現は、高速かつコンパクトな幾何再構成、フォトリアリスティックな新規ビュー合成、有効物理ベースレンダリングを実現する。
論文 参考訳(メタデータ) (2023-11-26T02:35:09Z) - VolRecon: Volume Rendering of Signed Ray Distance Functions for
Generalizable Multi-View Reconstruction [64.09702079593372]
VolRecon は Signed Ray Distance Function (SRDF) を用いた新しい一般化可能な暗黙的再構成法である
DTUデータセットでは、VolReconはスパースビュー再構築においてSparseNeuSを約30%上回り、フルビュー再構築においてMVSNetと同等の精度を達成する。
論文 参考訳(メタデータ) (2022-12-15T18:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。