論文の概要: Sp2360: Sparse-view 360 Scene Reconstruction using Cascaded 2D Diffusion Priors
- arxiv url: http://arxiv.org/abs/2405.16517v2
- Date: Sun, 2 Jun 2024 22:05:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 14:09:37.205396
- Title: Sp2360: Sparse-view 360 Scene Reconstruction using Cascaded 2D Diffusion Priors
- Title(参考訳): Sp2360: Cascaded 2D Diffusion Priors を用いたSparse-view 360 シーン再構成
- Authors: Soumava Paul, Christopher Wewer, Bernt Schiele, Jan Eric Lenssen,
- Abstract要約: 潜時拡散モデル(LDM)を用いた360度3次元シーンのスパースビュー再構成に挑戦する。
SparseSplat360は,未完成の細部を埋めたり,新しいビューをクリーンにするために,インペイントとアーティファクト除去のカスケードを利用する手法である。
提案手法は,9つの入力ビューから360度映像全体を生成する。
- 参考スコア(独自算出の注目度): 51.36238367193988
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We aim to tackle sparse-view reconstruction of a 360 3D scene using priors from latent diffusion models (LDM). The sparse-view setting is ill-posed and underconstrained, especially for scenes where the camera rotates 360 degrees around a point, as no visual information is available beyond some frontal views focused on the central object(s) of interest. In this work, we show that pretrained 2D diffusion models can strongly improve the reconstruction of a scene with low-cost fine-tuning. Specifically, we present SparseSplat360 (Sp2360), a method that employs a cascade of in-painting and artifact removal models to fill in missing details and clean novel views. Due to superior training and rendering speeds, we use an explicit scene representation in the form of 3D Gaussians over NeRF-based implicit representations. We propose an iterative update strategy to fuse generated pseudo novel views with existing 3D Gaussians fitted to the initial sparse inputs. As a result, we obtain a multi-view consistent scene representation with details coherent with the observed inputs. Our evaluation on the challenging Mip-NeRF360 dataset shows that our proposed 2D to 3D distillation algorithm considerably improves the performance of a regularized version of 3DGS adapted to a sparse-view setting and outperforms existing sparse-view reconstruction methods in 360 scene reconstruction. Qualitatively, our method generates entire 360 scenes from as few as 9 input views, with a high degree of foreground and background detail.
- Abstract(参考訳): 我々は,潜伏拡散モデル(LDM)の先行モデルを用いて,360度3次元シーンのスパースビュー再構成に取り組むことを目的とする。
スパースビュー設定は、特にカメラが1点あたり360度回転するシーンでは、中心となる対象に焦点を絞ったフロントビュー以外の視覚情報がないため、不適切で制約の少ない。
本研究では,事前学習した2次元拡散モデルにより,低コストな微調整によるシーンの再現性を強く向上させることができることを示す。
具体的にはSparseSplat360 (Sp2360) について述べる。
トレーニングやレンダリングの速度が優れているため,NeRFに基づく暗示表現よりも3次元ガウスの形で明示的なシーン表現を用いる。
本稿では,初期スパース入力に適合する既存の3次元ガウスモデルを用いて,生成した擬似新奇なビューを融合する反復的更新戦略を提案する。
その結果、観察された入力に忠実な細部を持つ多視点一貫したシーン表現が得られる。
課題であるMip-NeRF360データセットに対する評価から,提案した2次元から3次元の蒸留アルゴリズムは,スパースビュー設定に適応した3DGSの正規化バージョンの性能を著しく向上し,既存のスパースビュー再構築手法を360度シーン再構成で性能良くすることを示す。
定性的には,本手法は,9つの入力ビューから全360シーンを生成する。
関連論文リスト
- Gaussian Scenes: Pose-Free Sparse-View Scene Reconstruction using Depth-Enhanced Diffusion Priors [5.407319151576265]
限られた数の2D画像から360ドル(約3,600円)のポーズのないシーンを再現するための生成的アプローチを提案する。
本稿では,3次元シーンの描画や深度マップに欠落した細部を描画し,アーティファクトを除去するインストラクション追従RGBD拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-11-24T19:34:58Z) - SCube: Instant Large-Scale Scene Reconstruction using VoxSplats [55.383993296042526]
SCubeは画像の粗い集合から大規模3次元シーン(幾何学、外観、意味論)を再構成する新しい手法である。
提案手法は,高解像度のスパース・ボクセル・足場上に支持された3次元ガウスの組である,新しい表現VoxSplatを用いて再構成シーンを符号化する。
論文 参考訳(メタデータ) (2024-10-26T00:52:46Z) - LM-Gaussian: Boost Sparse-view 3D Gaussian Splatting with Large Model Priors [34.91966359570867]
スパースビューの再構築は本質的に不適切であり、制約を受けていない。
本稿では,限られた画像から高品質な再構成を生成できるLM-Gaussianを紹介する。
提案手法は,従来の3DGS法と比較してデータ取得要求を大幅に削減する。
論文 参考訳(メタデータ) (2024-09-05T12:09:02Z) - ReconX: Reconstruct Any Scene from Sparse Views with Video Diffusion Model [16.14713604672497]
ReconXは、時間生成タスクとして曖昧な再構築課題を再編成する、新しい3Dシーン再構築パラダイムである。
提案したReconXはまずグローバルポイントクラウドを構築し、3D構造条件としてコンテキスト空間にエンコードする。
この条件に導かれ、ビデオ拡散モデルは、ディテール保存され、高い3D一貫性を示すビデオフレームを合成する。
論文 参考訳(メタデータ) (2024-08-29T17:59:40Z) - DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - DreamScene360: Unconstrained Text-to-3D Scene Generation with Panoramic Gaussian Splatting [56.101576795566324]
テキストから3D 360$circ$のシーン生成パイプラインを提示する。
提案手法は, 2次元拡散モデルの生成力を利用して, 自己複製を促進する。
当社の手法は,360ドル(約3万2000円)の視野内で,グローバルに一貫した3Dシーンを提供する。
論文 参考訳(メタデータ) (2024-04-10T10:46:59Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - Sparse3D: Distilling Multiview-Consistent Diffusion for Object
Reconstruction from Sparse Views [47.215089338101066]
スパースビュー入力に適した新しい3D再構成手法であるスパース3Dを提案する。
提案手法は,多視点拡散モデルから頑健な先行情報を抽出し,ニューラルラディアンス場を改良する。
強力な画像拡散モデルから2Dプリエントをタップすることで、我々の統合モデルは、常に高品質な結果をもたらす。
論文 参考訳(メタデータ) (2023-08-27T11:52:00Z) - LED2-Net: Monocular 360 Layout Estimation via Differentiable Depth
Rendering [59.63979143021241]
パノラマの地平線上での深度予測問題として360度レイアウト推定のタスクを定式化する。
レイアウトから深度予測への変換を区別できるように、差分可能な深度レンダリング手順を提案します。
提案手法は,360 レイアウトのベンチマークデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T15:48:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。