Fugu-MT 論文翻訳(概要): MVSplat360: Feed-Forward 360 Scene Synthesis from Sparse Views

論文の概要: MVSplat360: Feed-Forward 360 Scene Synthesis from Sparse Views

arxiv url: http://arxiv.org/abs/2411.04924v1
Date: Thu, 07 Nov 2024 17:59:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:45.468846
Title: MVSplat360: Feed-Forward 360 Scene Synthesis from Sparse Views
Title（参考訳）: MVSplat360:スパースビューからのフィードフォワード360シーン合成
Authors: Yuedong Chen, Chuanxia Zheng, Haofei Xu, Bohan Zhuang, Andrea Vedaldi, Tat-Jen Cham, Jianfei Cai,
Abstract要約: MVSplat360は多様な現実世界シーンの360degノベルビュー合成(NVS)のためのフィードフォワードアプローチであり、スパース観測のみを用いて紹介する。この設定は、入力ビュー間の重複が最小限であり、提供された視覚情報が不十分であるために本質的に不適切である。私たちのモデルは、エンドツーエンドのトレーニングが可能で、5つのスパースなインプットビューで任意のビューのレンダリングをサポートしています。
参考スコア（独自算出の注目度）: 90.26609689682876
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce MVSplat360, a feed-forward approach for 360{\deg} novel view synthesis (NVS) of diverse real-world scenes, using only sparse observations. This setting is inherently ill-posed due to minimal overlap among input views and insufficient visual information provided, making it challenging for conventional methods to achieve high-quality results. Our MVSplat360 addresses this by effectively combining geometry-aware 3D reconstruction with temporally consistent video generation. Specifically, it refactors a feed-forward 3D Gaussian Splatting (3DGS) model to render features directly into the latent space of a pre-trained Stable Video Diffusion (SVD) model, where these features then act as pose and visual cues to guide the denoising process and produce photorealistic 3D-consistent views. Our model is end-to-end trainable and supports rendering arbitrary views with as few as 5 sparse input views. To evaluate MVSplat360's performance, we introduce a new benchmark using the challenging DL3DV-10K dataset, where MVSplat360 achieves superior visual quality compared to state-of-the-art methods on wide-sweeping or even 360{\deg} NVS tasks. Experiments on the existing benchmark RealEstate10K also confirm the effectiveness of our model. The video results are available on our project page: https://donydchen.github.io/mvsplat360.
Abstract（参考訳）: MVSplat360は360{\deg}新規ビュー合成(NVS)のためのフィードフォワードアプローチであり,スパース観測のみを用いて実世界の多様なシーンを合成する。この設定は、入力ビュー間の重複が最小限に抑えられ、提供された視覚情報が不十分であるため、従来の手法では高品質な結果を得ることが困難である。我々のMVSplat360は、幾何学を意識した3D再構成と時間的に一貫したビデオ生成を効果的に組み合わせることでこの問題に対処する。具体的には、フィードフォワード3Dガウススプラッティング(3DGS)モデルをリファクタリングして、事前訓練された安定ビデオ拡散(SVD)モデルの潜在空間に直接機能をレンダリングし、これらの特徴をポーズや視覚的手がかりとして機能し、デノイングプロセスをガイドし、フォトリアリスティックな3D一貫性ビューを生成する。私たちのモデルは、エンドツーエンドのトレーニングが可能で、5つのスパースなインプットビューで任意のビューのレンダリングをサポートしています。 MVSplat360の性能を評価するために, DL3DV-10Kデータセットを用いた新しいベンチマークを導入する。既存のベンチマークであるRealEstate10Kの実験も、我々のモデルの有効性を確認した。ビデオの結果はプロジェクトのページ(https://donydchen.github.io/mvsplat360.com/)で公開されている。

関連論文リスト

AnySplat: Feed-forward 3D Gaussian Splatting from Unconstrained Views [57.13066710710485]
AnySplatは、未校正画像コレクションから新しいビューを合成するためのフィードフォワードネットワークである。単一のフォワードパスは、シーン幾何学と外観の両方をコードする3Dガウスプリミティブのセットを生成する。広範囲なゼロショット評価では、AnySplatはスパースと高密度の両方のビューシナリオにおいて、ポーズを意識するベースラインの品質にマッチする。
論文参考訳（メタデータ） (2025-05-29T17:49:56Z)
FlowR: Flowing from Sparse to Dense 3D Reconstructions [60.6368083163258]
本稿では,新しいビューレンダリングを高密度再構成で期待するレンダリングに接続するフローを学習するフローマッチングモデルを提案する。我々のモデルは3.6Mイメージペアの新たなデータセットに基づいてトレーニングされており、単一のフォワードパスで1つのH100 GPU上で540x960解像度(91Kトークン)で45ビューまで処理できる。
論文参考訳（メタデータ） (2025-04-02T11:57:01Z)
Free360: Layered Gaussian Splatting for Unbounded 360-Degree View Synthesis from Extremely Sparse and Unposed Views [29.85363432402896]
本研究では,非有界な360degシーンにおいて,非有界かつ極めてスパースな3次元再構成を実現するための新しいニューラルネットワークレンダリングフレームワークを提案する。密集したステレオ再構成モデルを用いて粗い形状を復元し, ノイズを低減し, 閉塞領域を埋めるために, 層特異的なブートストラップ最適化を導入する。提案手法は,レンダリング品質と表面再構成精度において,既存の最先端手法よりも優れる。
論文参考訳（メタデータ） (2025-03-31T17:59:25Z)
EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis [61.1662426227688]
既存のNeRFおよび3DGSベースの手法は、フォトリアリスティックレンダリングを実現する上で有望な結果を示すが、スローでシーンごとの最適化が必要である。本稿では,都市景観を対象とした効率的な3次元ガウススプレイティングモデルEVolSplatを紹介する。
論文参考訳（メタデータ） (2025-03-26T02:47:27Z)
Splatter-360: Generalizable 360$^{\circ}$ Gaussian Splatting for Wide-baseline Panoramic Images [52.48351378615057]
textitSplatter-360は、ワイドベースラインパノラマ画像を扱うための、エンドツーエンドの汎用3DGSフレームワークである。パノラマ画像に固有の歪みを緩和する3D対応複投影エンコーダを提案する。これにより、堅牢な3D対応機能表現とリアルタイムレンダリングが可能になる。
論文参考訳（メタデータ） (2024-12-09T06:58:31Z)
SplatFormer: Point Transformer for Robust 3D Gaussian Splatting [18.911307036504827]
3D Gaussian Splatting (3DGS) は、近ごろ光現実的再構成を変換し、高い視覚的忠実度とリアルタイム性能を実現した。レンダリング品質は、テストビューがトレーニング中に使用されるカメラアングルから逸脱したときに著しく低下し、没入型自由視点レンダリングとナビゲーションのアプリケーションにとって大きな課題となった。 SplatFormerは,ガウススプラット上での操作に特化して設計された最初の点変換器モデルである。我々のモデルは、非常に斬新なビュー下でのレンダリング品質を著しく改善し、これらの難易度シナリオにおける最先端のパフォーマンスを達成し、様々な3DGS正規化技術、スパースビュー合成に適したマルチシーンモデル、拡散を上回ります。
論文参考訳（メタデータ） (2024-11-10T08:23:27Z)
Sp2360: Sparse-view 360 Scene Reconstruction using Cascaded 2D Diffusion Priors [51.36238367193988]
潜時拡散モデル(LDM)を用いた360度3次元シーンのスパースビュー再構成に挑戦する。 SparseSplat360は,未完成の細部を埋めたり,新しいビューをクリーンにするために,インペイントとアーティファクト除去のカスケードを利用する手法である。提案手法は,9つの入力ビューから360度映像全体を生成する。
論文参考訳（メタデータ） (2024-05-26T11:01:39Z)
See360: Novel Panoramic View Interpolation [24.965259708297932]
See360は、潜在空間視点推定を用いた360パノラマビューのための汎用的で効率的なフレームワークである。提案手法は,4つのデータセットに対する任意のビューのリアルタイムレンダリングを実現するのに十分な汎用性を有することを示す。
論文参考訳（メタデータ） (2024-01-07T09:17:32Z)
NeO 360: Neural Fields for Sparse View Synthesis of Outdoor Scenes [59.15910989235392]
屋外シーンのスパースビュー合成のためのNeO 360, Neural Fieldを紹介する。 NeO 360は、単一のまたは少数のRGB画像から360degのシーンを再構成する一般化可能な方法である。我々の表現は、Voxel-basedとBird's-eye-view (BEV)の両方の表現の長所を組み合わせたものである。
論文参考訳（メタデータ） (2023-08-24T17:59:50Z)
S-VolSDF: Sparse Multi-View Stereo Regularization of Neural Implicit Surfaces [75.30792581941789]
暗黙の面のニューラルレンダリングは、3次元視覚アプリケーションでうまく機能する。スパース入力画像のみが利用可能となると、形状と輝度のあいまいさの問題により出力品質が著しく低下する。 MVSソリューションを用いてニューラルレンダリング最適化の正規化を提案する。
論文参考訳（メタデータ） (2023-03-30T21:10:58Z)
Multi-View Transformer for 3D Visual Grounding [64.30493173825234]
3次元視覚グラウンドリングのためのマルチビュー変換器(MVT)を提案する。我々は3Dシーンを多視点空間に投影し、異なるビュー下の3Dシーンの位置情報を同時にモデル化して集約する。
論文参考訳（メタデータ） (2022-04-05T12:59:43Z)
SHD360: A Benchmark Dataset for Salient Human Detection in 360{\deg} Videos [26.263614207849276]
実写シーンを収集する360度ビデオSHDデータセットSHD360を提案する。 SHD360には16,238の有能な人間の実例があり、手動で注釈付けされたピクセル単位の地上真実がある。提案したデータセットとベンチマークは,360度パノラマデータに向けた人間中心の研究の出発点となる可能性がある。
論文参考訳（メタデータ） (2021-05-24T23:51:29Z)
ATSal: An Attention Based Architecture for Saliency Prediction in 360 Videos [5.831115928056554]
本稿では,360度ビデオの注目度に基づく新しいサリエンシモデルであるATSalを提案する。提案したアプローチを,Salient360!とVR-EyeTrackingという2つのデータセット上で,最先端のSaliencyモデルと比較する。 80以上のODVビデオ(75K以上のフレーム)の実験結果から,提案手法は既存の最先端技術よりも優れていた。
論文参考訳（メタデータ） (2020-11-20T19:19:48Z)
Stable View Synthesis [100.86844680362196]
安定ビュー合成(SVS)について紹介する。 SVSは、自由に分散された視点からシーンを描写するソースイメージのセットを与えられた場合、シーンの新たなビューを合成する。 SVSは3つの異なる実世界のデータセットに対して定量的かつ質的に、最先端のビュー合成手法より優れている。
論文参考訳（メタデータ） (2020-11-14T07:24:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。