論文の概要: A Construct-Optimize Approach to Sparse View Synthesis without Camera Pose
- arxiv url: http://arxiv.org/abs/2405.03659v2
- Date: Mon, 10 Jun 2024 22:51:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 21:53:26.013583
- Title: A Construct-Optimize Approach to Sparse View Synthesis without Camera Pose
- Title(参考訳): カメラポーズを伴わないスパースビュー合成のための構成最適化手法
- Authors: Kaiwen Jiang, Yang Fu, Mukund Varma T, Yash Belhe, Xiaolong Wang, Hao Su, Ravi Ramamoorthi,
- Abstract要約: カメラポーズを伴わないスパースビュー合成のための新しい構成と最適化手法を開発した。
具体的には、単分子深度と画素を3次元の世界に投影することで、解を構築する。
タンク・アンド・テンプル・アンド・スタティック・ハイクスのデータセットに3つの広い範囲のビューで結果を示す。
- 参考スコア(独自算出の注目度): 44.13819148680788
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Novel view synthesis from a sparse set of input images is a challenging problem of great practical interest, especially when camera poses are absent or inaccurate. Direct optimization of camera poses and usage of estimated depths in neural radiance field algorithms usually do not produce good results because of the coupling between poses and depths, and inaccuracies in monocular depth estimation. In this paper, we leverage the recent 3D Gaussian splatting method to develop a novel construct-and-optimize method for sparse view synthesis without camera poses. Specifically, we construct a solution progressively by using monocular depth and projecting pixels back into the 3D world. During construction, we optimize the solution by detecting 2D correspondences between training views and the corresponding rendered images. We develop a unified differentiable pipeline for camera registration and adjustment of both camera poses and depths, followed by back-projection. We also introduce a novel notion of an expected surface in Gaussian splatting, which is critical to our optimization. These steps enable a coarse solution, which can then be low-pass filtered and refined using standard optimization methods. We demonstrate results on the Tanks and Temples and Static Hikes datasets with as few as three widely-spaced views, showing significantly better quality than competing methods, including those with approximate camera pose information. Moreover, our results improve with more views and outperform previous InstantNGP and Gaussian Splatting algorithms even when using half the dataset. Project page: https://raymondjiangkw.github.io/cogs.github.io/
- Abstract(参考訳): 入力画像のスパース集合からの新しいビュー合成は、特にカメラポーズが欠落したり不正確な場合には、非常に実践的な問題である。
カメラポーズの直接最適化とニューラルレイディアンス場アルゴリズムにおける推定深度の利用は、ポーズと深さのカップリングや単眼深度推定の不正確さのため、通常は良い結果を出さない。
本稿では,最近の3次元ガウススプラッティング法を活用し,カメラポーズを伴わないスパースビュー合成のための新しい構成と最適化法を開発した。
具体的には、単分子深度と画素を3次元の世界に投影することで、解を段階的に構築する。
構築中、トレーニングビューと対応するレンダリング画像の2次元対応を検知し、解を最適化する。
我々は、カメラのポーズと奥行きの調整とカメラ登録のための一元化可能なパイプラインを開発し、その後にバックプロジェクションを行う。
また、ガウススプラッティングにおいて期待面という新たな概念を導入し、最適化に不可欠である。
これらのステップにより粗い解が実現され、標準最適化法を用いて低域通過フィルタと精細化が可能となる。
筆者らは,3つの広視野ビューで,タンクとテンプルと静的ハイクスのデータセットを用いて,近似カメラポーズ情報を含む競合手法よりもはるかに高品質な結果を示した。
さらに,データセットを半分使用しても,従来のInstantNGPおよびGaussian Splattingアルゴリズムよりも多くのビューと性能が向上した。
プロジェクトページ: https://raymondjiangkw.github.io/cogs.github.io/
関連論文リスト
- CoherentGS: Sparse Novel View Synthesis with Coherent 3D Gaussians [18.42203035154126]
2次元画像空間で制御できる構造付きガウス表現を導入する。
次に、ガウス群、特にその位置を制約し、最適化中に独立に動くのを防ぐ。
我々は,様々な場面における最先端のスパースビュー NeRF ベースのアプローチと比較して,顕著な改善を示した。
論文 参考訳(メタデータ) (2024-03-28T15:27:13Z) - iComMa: Inverting 3D Gaussian Splatting for Camera Pose Estimation via Comparing and Matching [14.737266480464156]
コンピュータビジョンにおける6次元カメラのポーズ推定問題に対処するため,iComMaという手法を提案する。
3次元ガウススプラッティング(3DGS)の反転による高精度カメラポーズ推定法を提案する。
論文 参考訳(メタデータ) (2023-12-14T15:31:33Z) - COLMAP-Free 3D Gaussian Splatting [93.69157280273856]
本稿では,SfM前処理を使わずに新しいビュー合成を実現する手法を提案する。
入力フレームを逐次的に処理し、一度に1つの入力フレームを取ることで3Dガウスを段階的に成長させる。
提案手法は, 映像合成とカメラポーズ推定において, 大きな動き変化下での従来手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-12-12T18:39:52Z) - GPS-Gaussian: Generalizable Pixel-wise 3D Gaussian Splatting for Real-time Human Novel View Synthesis [70.24111297192057]
我々は、文字の新たなビューをリアルタイムに合成するための新しいアプローチ、GPS-Gaussianを提案する。
提案手法は,スパースビューカメラ設定下での2K解像度のレンダリングを可能にする。
論文 参考訳(メタデータ) (2023-12-04T18:59:55Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - FvOR: Robust Joint Shape and Pose Optimization for Few-view Object
Reconstruction [37.81077373162092]
数枚の画像から正確な3Dオブジェクトモデルを再構築することは、コンピュータビジョンにおいて難しい問題である。
FvORは、ノイズの多い入力ポーズを持つ数枚の画像から正確な3Dモデルを予測する学習ベースのオブジェクト再構成手法である。
論文 参考訳(メタデータ) (2022-05-16T15:39:27Z) - Human Body Model Fitting by Learned Gradient Descent [48.79414884222403]
画像に3次元の人体形状を適合させる新しいアルゴリズムを提案する。
このアルゴリズムは高速(約120ms収束)で、データセットに頑健であり、公開評価データセットの最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2020-08-19T14:26:47Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。