論文の概要: MVSplat360: Feed-Forward 360 Scene Synthesis from Sparse Views
- arxiv url: http://arxiv.org/abs/2411.04924v1
- Date: Thu, 07 Nov 2024 17:59:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:38:28.565849
- Title: MVSplat360: Feed-Forward 360 Scene Synthesis from Sparse Views
- Title(参考訳): MVSplat360:スパースビューからのフィードフォワード360シーン合成
- Authors: Yuedong Chen, Chuanxia Zheng, Haofei Xu, Bohan Zhuang, Andrea Vedaldi, Tat-Jen Cham, Jianfei Cai,
- Abstract要約: MVSplat360は多様な現実世界シーンの360degノベルビュー合成(NVS)のためのフィードフォワードアプローチであり、スパース観測のみを用いて紹介する。
この設定は、入力ビュー間の重複が最小限であり、提供された視覚情報が不十分であるために本質的に不適切である。
私たちのモデルは、エンドツーエンドのトレーニングが可能で、5つのスパースなインプットビューで任意のビューのレンダリングをサポートしています。
- 参考スコア(独自算出の注目度): 90.26609689682876
- License:
- Abstract: We introduce MVSplat360, a feed-forward approach for 360{\deg} novel view synthesis (NVS) of diverse real-world scenes, using only sparse observations. This setting is inherently ill-posed due to minimal overlap among input views and insufficient visual information provided, making it challenging for conventional methods to achieve high-quality results. Our MVSplat360 addresses this by effectively combining geometry-aware 3D reconstruction with temporally consistent video generation. Specifically, it refactors a feed-forward 3D Gaussian Splatting (3DGS) model to render features directly into the latent space of a pre-trained Stable Video Diffusion (SVD) model, where these features then act as pose and visual cues to guide the denoising process and produce photorealistic 3D-consistent views. Our model is end-to-end trainable and supports rendering arbitrary views with as few as 5 sparse input views. To evaluate MVSplat360's performance, we introduce a new benchmark using the challenging DL3DV-10K dataset, where MVSplat360 achieves superior visual quality compared to state-of-the-art methods on wide-sweeping or even 360{\deg} NVS tasks. Experiments on the existing benchmark RealEstate10K also confirm the effectiveness of our model. The video results are available on our project page: https://donydchen.github.io/mvsplat360.
- Abstract(参考訳): MVSplat360は360{\deg}新規ビュー合成(NVS)のためのフィードフォワードアプローチであり,スパース観測のみを用いて実世界の多様なシーンを合成する。
この設定は、入力ビュー間の重複が最小限に抑えられ、提供された視覚情報が不十分であるため、従来の手法では高品質な結果を得ることが困難である。
我々のMVSplat360は、幾何学を意識した3D再構成と時間的に一貫したビデオ生成を効果的に組み合わせることでこの問題に対処する。
具体的には、フィードフォワード3Dガウススプラッティング(3DGS)モデルをリファクタリングして、事前訓練された安定ビデオ拡散(SVD)モデルの潜在空間に直接機能をレンダリングし、これらの特徴をポーズや視覚的手がかりとして機能し、デノイングプロセスをガイドし、フォトリアリスティックな3D一貫性ビューを生成する。
私たちのモデルは、エンドツーエンドのトレーニングが可能で、5つのスパースなインプットビューで任意のビューのレンダリングをサポートしています。
MVSplat360の性能を評価するために, DL3DV-10Kデータセットを用いた新しいベンチマークを導入する。
既存のベンチマークであるRealEstate10Kの実験も、我々のモデルの有効性を確認した。
ビデオの結果はプロジェクトのページ(https://donydchen.github.io/mvsplat360.com/)で公開されている。
関連論文リスト
- Sp2360: Sparse-view 360 Scene Reconstruction using Cascaded 2D Diffusion Priors [51.36238367193988]
潜時拡散モデル(LDM)を用いた360度3次元シーンのスパースビュー再構成に挑戦する。
SparseSplat360は,未完成の細部を埋めたり,新しいビューをクリーンにするために,インペイントとアーティファクト除去のカスケードを利用する手法である。
提案手法は,9つの入力ビューから360度映像全体を生成する。
論文 参考訳(メタデータ) (2024-05-26T11:01:39Z) - See360: Novel Panoramic View Interpolation [24.965259708297932]
See360は、潜在空間視点推定を用いた360パノラマビューのための汎用的で効率的なフレームワークである。
提案手法は,4つのデータセットに対する任意のビューのリアルタイムレンダリングを実現するのに十分な汎用性を有することを示す。
論文 参考訳(メタデータ) (2024-01-07T09:17:32Z) - NeO 360: Neural Fields for Sparse View Synthesis of Outdoor Scenes [59.15910989235392]
屋外シーンのスパースビュー合成のためのNeO 360, Neural Fieldを紹介する。
NeO 360は、単一のまたは少数のRGB画像から360degのシーンを再構成する一般化可能な方法である。
我々の表現は、Voxel-basedとBird's-eye-view (BEV)の両方の表現の長所を組み合わせたものである。
論文 参考訳(メタデータ) (2023-08-24T17:59:50Z) - S-VolSDF: Sparse Multi-View Stereo Regularization of Neural Implicit
Surfaces [75.30792581941789]
暗黙の面のニューラルレンダリングは、3次元視覚アプリケーションでうまく機能する。
スパース入力画像のみが利用可能となると、形状と輝度のあいまいさの問題により出力品質が著しく低下する。
MVSソリューションを用いてニューラルレンダリング最適化の正規化を提案する。
論文 参考訳(メタデータ) (2023-03-30T21:10:58Z) - Multi-View Transformer for 3D Visual Grounding [64.30493173825234]
3次元視覚グラウンドリングのためのマルチビュー変換器(MVT)を提案する。
我々は3Dシーンを多視点空間に投影し、異なるビュー下の3Dシーンの位置情報を同時にモデル化して集約する。
論文 参考訳(メタデータ) (2022-04-05T12:59:43Z) - SHD360: A Benchmark Dataset for Salient Human Detection in 360{\deg}
Videos [26.263614207849276]
実写シーンを収集する360度ビデオSHDデータセットSHD360を提案する。
SHD360には16,238の有能な人間の実例があり、手動で注釈付けされたピクセル単位の地上真実がある。
提案したデータセットとベンチマークは,360度パノラマデータに向けた人間中心の研究の出発点となる可能性がある。
論文 参考訳(メタデータ) (2021-05-24T23:51:29Z) - ATSal: An Attention Based Architecture for Saliency Prediction in 360
Videos [5.831115928056554]
本稿では,360度ビデオの注目度に基づく新しいサリエンシモデルであるATSalを提案する。
提案したアプローチを,Salient360!とVR-EyeTrackingという2つのデータセット上で,最先端のSaliencyモデルと比較する。
80以上のODVビデオ(75K以上のフレーム)の実験結果から,提案手法は既存の最先端技術よりも優れていた。
論文 参考訳(メタデータ) (2020-11-20T19:19:48Z) - Stable View Synthesis [100.86844680362196]
安定ビュー合成(SVS)について紹介する。
SVSは、自由に分散された視点からシーンを描写するソースイメージのセットを与えられた場合、シーンの新たなビューを合成する。
SVSは3つの異なる実世界のデータセットに対して定量的かつ質的に、最先端のビュー合成手法より優れている。
論文 参考訳(メタデータ) (2020-11-14T07:24:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。