論文の概要: SGD: Street View Synthesis with Gaussian Splatting and Diffusion Prior
- arxiv url: http://arxiv.org/abs/2403.20079v1
- Date: Fri, 29 Mar 2024 09:20:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 16:04:00.967932
- Title: SGD: Street View Synthesis with Gaussian Splatting and Diffusion Prior
- Title(参考訳): SGD:ガウススプラッティングと拡散先行によるストリートビューの合成
- Authors: Zhongrui Yu, Haoran Wang, Jinze Yang, Hanzhang Wang, Zeke Xie, Yunfeng Cai, Jiale Cao, Zhong Ji, Mingming Sun,
- Abstract要約: 現在の手法では、トレーニングの観点から大きく逸脱する観点で、レンダリングの品質を維持するのに苦労しています。
この問題は、移動中の車両の固定カメラが捉えた、まばらなトレーニングビューに起因している。
そこで本研究では,拡散モデルを用いて3DGSのキャパシティを向上させる手法を提案する。
- 参考スコア(独自算出の注目度): 53.52396082006044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Novel View Synthesis (NVS) for street scenes play a critical role in the autonomous driving simulation. The current mainstream technique to achieve it is neural rendering, such as Neural Radiance Fields (NeRF) and 3D Gaussian Splatting (3DGS). Although thrilling progress has been made, when handling street scenes, current methods struggle to maintain rendering quality at the viewpoint that deviates significantly from the training viewpoints. This issue stems from the sparse training views captured by a fixed camera on a moving vehicle. To tackle this problem, we propose a novel approach that enhances the capacity of 3DGS by leveraging prior from a Diffusion Model along with complementary multi-modal data. Specifically, we first fine-tune a Diffusion Model by adding images from adjacent frames as condition, meanwhile exploiting depth data from LiDAR point clouds to supply additional spatial information. Then we apply the Diffusion Model to regularize the 3DGS at unseen views during training. Experimental results validate the effectiveness of our method compared with current state-of-the-art models, and demonstrate its advance in rendering images from broader views.
- Abstract(参考訳): ストリートシーンのための新しいビュー合成(NVS)は、自動運転シミュレーションにおいて重要な役割を果たす。
現在では、Neural Radiance Fields(NeRF)や3D Gaussian Splatting(3DGS)などのニューラルレンダリングが主流となっている。
ストリートシーンを扱う場合、現在の手法は、トレーニングの観点から大きく逸脱した視点でレンダリング品質を維持するのに苦労している。
この問題は、移動中の車両の固定カメラが捉えた、まばらなトレーニングビューに起因している。
そこで本研究では,拡散モデルと相補的なマルチモーダルデータとの相補性を利用して,3DGSのキャパシティを向上する手法を提案する。
具体的には、隣接するフレームから画像を条件として追加し、一方、LiDAR点雲からの深度データを利用して空間情報を付加することで拡散モデルを微調整する。
次に、ディフュージョンモデルを用いて、トレーニング中に見えない視点で3DGSを正規化する。
実験により,現在の最先端モデルと比較して,提案手法の有効性を検証し,より広い視点からの画像のレンダリングの進歩を実証した。
関連論文リスト
- LidaRF: Delving into Lidar for Neural Radiance Field on Street Scenes [73.65115834242866]
光リアリスティックシミュレーションは、自律運転のようなアプリケーションにおいて重要な役割を果たす。
しかし, コリニアカメラの動作やスペーサーのサンプリングにより, 街路景観の再現性は低下する。
街路面のNeRF品質を改善するために,Lidarデータのより優れた利用を可能にするいくつかの知見を提案する。
論文 参考訳(メタデータ) (2024-05-01T23:07:12Z) - Bootstrap 3D Reconstructed Scenes from 3D Gaussian Splatting [10.06208115191838]
トレーニングされた3D-GSを用いて,新しいビューのレンダリングを強化するブートストラップ手法を提案する。
以上の結果から,ブートストレッピングはアーティファクトを効果的に削減し,評価指標の明確化を図っている。
論文 参考訳(メタデータ) (2024-04-29T12:57:05Z) - Scaling Diffusion Models to Real-World 3D LiDAR Scene Completion [25.69896680908217]
3D LiDARセンサーは、通常、シーンからスパース3Dポイントの雲を収集するために使用される。
本稿では,1枚のLiDARスキャンからシーン完了を実現するために,画像の生成モデルとして拡散モデルを拡張することを提案する。
提案手法は,1つのLiDARスキャンを入力としてシーンを完了し,最先端のシーン補完手法と比較して,より詳細なシーンを生成する。
論文 参考訳(メタデータ) (2024-03-20T10:19:05Z) - CAD: Photorealistic 3D Generation via Adversarial Distillation [28.07049413820128]
本稿では,事前学習した拡散モデルを用いた3次元合成のための新しい学習パラダイムを提案する。
提案手法は,1つの画像に条件付された高忠実かつ光リアルな3Dコンテンツの生成を解放し,プロンプトを行う。
論文 参考訳(メタデータ) (2023-12-11T18:59:58Z) - Sparse3D: Distilling Multiview-Consistent Diffusion for Object
Reconstruction from Sparse Views [47.215089338101066]
スパースビュー入力に適した新しい3D再構成手法であるスパース3Dを提案する。
提案手法は,多視点拡散モデルから頑健な先行情報を抽出し,ニューラルラディアンス場を改良する。
強力な画像拡散モデルから2Dプリエントをタップすることで、我々の統合モデルは、常に高品質な結果をもたらす。
論文 参考訳(メタデータ) (2023-08-27T11:52:00Z) - Single-Stage Diffusion NeRF: A Unified Approach to 3D Generation and
Reconstruction [77.69363640021503]
3D対応画像合成は、シーン生成や画像からの新規ビュー合成など、様々なタスクを含む。
本稿では,様々な物体の多視点画像から,ニューラルラディアンス場(NeRF)の一般化可能な事前学習を行うために,表現拡散モデルを用いた統一的アプローチであるSSDNeRFを提案する。
論文 参考訳(メタデータ) (2023-04-13T17:59:01Z) - Learning 3D Photography Videos via Self-supervised Diffusion on Single
Images [105.81348348510551]
3D写真は、静止画を3D視覚効果のあるビデオにレンダリングする。
既存のアプローチは通常、まず単眼深度推定を行い、次に様々な視点で入力フレームを後続のフレームに描画する。
我々は、入力オブジェクトの空間と時間を拡張する、新しいタスク、out-animationを提案する。
論文 参考訳(メタデータ) (2023-02-21T16:18:40Z) - CLONeR: Camera-Lidar Fusion for Occupancy Grid-aided Neural
Representations [77.90883737693325]
本稿では,スパース入力センサビューから観測される大規模な屋外運転シーンをモデル化することで,NeRFを大幅に改善するCLONeRを提案する。
これは、NeRFフレームワーク内の占有率と色学習を、それぞれLiDARとカメラデータを用いてトレーニングされた個別のMulti-Layer Perceptron(MLP)に分離することで実現される。
さらに,NeRFモデルと平行に3D Occupancy Grid Maps(OGM)を構築する手法を提案し,この占有グリッドを利用して距離空間のレンダリングのために線に沿った点のサンプリングを改善する。
論文 参考訳(メタデータ) (2022-09-02T17:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。