論文の概要: InstantSplat: Sparse-view SfM-free Gaussian Splatting in Seconds
- arxiv url: http://arxiv.org/abs/2403.20309v3
- Date: Tue, 20 Aug 2024 20:57:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 22:35:13.187046
- Title: InstantSplat: Sparse-view SfM-free Gaussian Splatting in Seconds
- Title(参考訳): InstantSplat:sparse-view SfM-free Gaussian Splatting in Seconds
- Authors: Zhiwen Fan, Wenyan Cong, Kairun Wen, Kevin Wang, Jian Zhang, Xinghao Ding, Danfei Xu, Boris Ivanovic, Marco Pavone, Georgios Pavlakos, Zhangyang Wang, Yue Wang,
- Abstract要約: スパース画像からの新しいビュー合成(NVS)は3次元コンピュータビジョンにおいて大きく進歩している。
これはStructure-from-Motion (SfM) を用いたカメラパラメータの正確な初期推定に依存する
本研究では,スパースビュー画像から堅牢なNVSを向上するための,新規で効率的なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 91.77050739918037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While novel view synthesis (NVS) from a sparse set of images has advanced significantly in 3D computer vision, it relies on precise initial estimation of camera parameters using Structure-from-Motion (SfM). For instance, the recently developed Gaussian Splatting depends heavily on the accuracy of SfM-derived points and poses. However, SfM processes are time-consuming and often prove unreliable in sparse-view scenarios, where matched features are scarce, leading to accumulated errors and limited generalization capability across datasets. In this study, we introduce a novel and efficient framework to enhance robust NVS from sparse-view images. Our framework, InstantSplat, integrates multi-view stereo(MVS) predictions with point-based representations to construct 3D Gaussians of large-scale scenes from sparse-view data within seconds, addressing the aforementioned performance and efficiency issues by SfM. Specifically, InstantSplat generates densely populated surface points across all training views and determines the initial camera parameters using pixel-alignment. Nonetheless, the MVS points are not globally accurate, and the pixel-wise prediction from all views results in an excessive Gaussian number, yielding a overparameterized scene representation that compromises both training speed and accuracy. To address this issue, we employ a grid-based, confidence-aware Farthest Point Sampling to strategically position point primitives at representative locations in parallel. Next, we enhance pose accuracy and tune scene parameters through a gradient-based joint optimization framework from self-supervision. By employing this simplified framework, InstantSplat achieves a substantial reduction in training time, from hours to mere seconds, and demonstrates robust performance across various numbers of views in diverse datasets.
- Abstract(参考訳): スパース画像からの新規ビュー合成(NVS)は3次元コンピュータビジョンにおいて著しく進歩しているが、Structure-from-Motion (SfM) を用いたカメラパラメータの正確な初期推定に依存している。
例えば、最近開発されたガウススプラッティングは、SfM由来の点とポーズの精度に大きく依存している。
しかし、SfMプロセスは時間がかかり、スパースビューのシナリオでは信頼できないことがしばしばある。
本研究では,スパースビュー画像から堅牢なNVSを向上するための,新規で効率的なフレームワークを提案する。
我々のフレームワークであるInstantSplatは、マルチビューステレオ(MVS)予測とポイントベース表現を統合して、スパースビューデータから大規模シーンの3Dガウスアンを秒単位で構築し、前述のSfMによる性能と効率の問題に対処する。
具体的には、InstantSplatは、すべてのトレーニングビューにまたがって密集した表面点を生成し、ピクセルアライメントを用いて初期カメラパラメータを決定する。
それでも、MVSポイントはグローバルに正確ではなく、全てのビューからのピクセルワイズ予測はガウス数の過大な結果となり、トレーニング速度と精度の両方を損なう過度なパラメータ化されたシーン表現をもたらす。
この問題に対処するために、グリッドベースで信頼性に配慮したFarthest Point Smplingを用いて、代表地点で戦略的にポイントプリミティブを並列に配置する。
次に、自己スーパービジョンからの勾配に基づく共同最適化フレームワークを用いて、ポーズ精度を高め、シーンパラメータをチューニングする。
この単純化されたフレームワークを使用することで、InstantSplatは数時間からほんの数秒までのトレーニング時間を大幅に短縮し、多様なデータセットでさまざまなビューにわたって堅牢なパフォーマンスを示す。
関連論文リスト
- GPS-Gaussian+: Generalizable Pixel-wise 3D Gaussian Splatting for Real-Time Human-Scene Rendering from Sparse Views [67.34073368933814]
スパースビューカメラ設定下での高解像度画像レンダリングのための一般化可能なガウススプラッティング手法を提案する。
我々は,人間のみのデータや人景データに基づいてガウスパラメータ回帰モジュールをトレーニングし,深度推定モジュールと共同で2次元パラメータマップを3次元空間に引き上げる。
いくつかのデータセットに対する実験により、我々の手法はレンダリング速度を超越しながら最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-11-18T08:18:44Z) - LoGS: Visual Localization via Gaussian Splatting with Fewer Training Images [7.363332481155945]
本稿では,3D Splatting (GS) 技術をシーン表現として活用した視覚に基づくローカライゼーションパイプラインを提案する。
マッピングフェーズでは、まずStructure-from-motion(SfM)を適用し、続いてGSマップを生成する。
高精度なポーズは、地図上で解析的に達成される。
論文 参考訳(メタデータ) (2024-10-15T11:17:18Z) - MCGS: Multiview Consistency Enhancement for Sparse-View 3D Gaussian Radiance Fields [73.49548565633123]
3Dガウシアンによって表現される放射場は、高いトレーニング効率と高速レンダリングの両方を提供する、新しいビューの合成に優れている。
既存の手法では、高密度推定ネットワークからの奥行き先を組み込むことが多いが、入力画像に固有の多視点一貫性を見落としている。
本稿では,3次元ガウス・スプレイティング(MCGS)に基づくビュー・フレームワークを提案し,スパークス・インプット・ビューからシーンを再構築する。
論文 参考訳(メタデータ) (2024-10-15T08:39:05Z) - LoopSparseGS: Loop Based Sparse-View Friendly Gaussian Splatting [18.682864169561498]
LoopSparseGSは、疎結合なビュー合成タスクのためのループベースの3DGSフレームワークである。
Sparse-Friended Smpling (SFS) 戦略を導入し,ガウス楕円体を過剰に処理し,画素誤差が大きくなった。
4つのデータセットの実験により、LoopSparseGSはスパース・インプット・ノベルビューの合成において既存の最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-08-01T03:26:50Z) - MVSGaussian: Fast Generalizable Gaussian Splatting Reconstruction from Multi-View Stereo [54.00987996368157]
MVSGaussianは、Multi-View Stereo(MVS)から導かれる新しい一般化可能な3次元ガウス表現手法である。
MVSGaussianは、シーンごとにより良い合成品質でリアルタイムレンダリングを実現する。
論文 参考訳(メタデータ) (2024-05-20T17:59:30Z) - MVSplat: Efficient 3D Gaussian Splatting from Sparse Multi-View Images [102.7646120414055]
入力としてスパースなマルチビュー画像を与えられたMVSplatは、クリーンなフィードフォワード3Dガウスを予測できる。
大規模RealEstate10KとACIDベンチマークでは、MVSplatは高速フィードフォワード推論速度(22fps)で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-03-21T17:59:58Z) - FSGS: Real-Time Few-shot View Synthesis using Gaussian Splatting [58.41056963451056]
本稿では,3次元ガウススプラッティングに基づく数ショットビュー合成フレームワークを提案する。
このフレームワークは3つのトレーニングビューでリアルタイムおよびフォトリアリスティックなビュー合成を可能にする。
FSGSは、さまざまなデータセットの精度とレンダリング効率の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-01T09:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。