論文の概要: No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images
- arxiv url: http://arxiv.org/abs/2410.24207v1
- Date: Thu, 31 Oct 2024 17:58:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:01:34.494487
- Title: No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images
- Title(参考訳): 意外なほどシンプルな3Dガウシアンスプラッター
- Authors: Botao Ye, Sifei Liu, Haofei Xu, Xueting Li, Marc Pollefeys, Ming-Hsuan Yang, Songyou Peng,
- Abstract要約: NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。
提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
- 参考スコア(独自算出の注目度): 100.80376573969045
- License:
- Abstract: We introduce NoPoSplat, a feed-forward model capable of reconstructing 3D scenes parameterized by 3D Gaussians from \textit{unposed} sparse multi-view images. Our model, trained exclusively with photometric loss, achieves real-time 3D Gaussian reconstruction during inference. To eliminate the need for accurate pose input during reconstruction, we anchor one input view's local camera coordinates as the canonical space and train the network to predict Gaussian primitives for all views within this space. This approach obviates the need to transform Gaussian primitives from local coordinates into a global coordinate system, thus avoiding errors associated with per-frame Gaussians and pose estimation. To resolve scale ambiguity, we design and compare various intrinsic embedding methods, ultimately opting to convert camera intrinsics into a token embedding and concatenate it with image tokens as input to the model, enabling accurate scene scale prediction. We utilize the reconstructed 3D Gaussians for novel view synthesis and pose estimation tasks and propose a two-stage coarse-to-fine pipeline for accurate pose estimation. Experimental results demonstrate that our pose-free approach can achieve superior novel view synthesis quality compared to pose-required methods, particularly in scenarios with limited input image overlap. For pose estimation, our method, trained without ground truth depth or explicit matching loss, significantly outperforms the state-of-the-art methods with substantial improvements. This work makes significant advances in pose-free generalizable 3D reconstruction and demonstrates its applicability to real-world scenarios. Code and trained models are available at https://noposplat.github.io/.
- Abstract(参考訳): In this introduced NoPoSplat, a feed-forward model can constructing 3D Gaussians from \textit{unposed} sparse multi-view images。
光量損失を専門にトレーニングした本モデルは,推定中のリアルタイムな3次元ガウス再構成を実現する。
再建時に正確なポーズ入力を不要にするため、入力ビューのローカルカメラ座標を標準空間として固定し、ネットワークをトレーニングして、この空間内のすべてのビューに対してガウス原始を予測させる。
このアプローチは、ガウス原始体を局所座標から大域座標系に変換する必要性を排除し、フレームごとのガウス原始体と関連する誤差を回避し、推定を行う。
スケールのあいまいさを解決するため,様々な内在的埋め込み手法を設計・比較し,最終的にカメラの内在的埋め込みをトークンの埋め込みに変換し,それをモデルへの入力として画像トークンと結合させ,正確なシーンスケール予測を可能にする。
再構成された3次元ガウスアンを新しいビュー合成とポーズ推定に利用し、正確なポーズ推定のための2段階の粗いパイプラインを提案する。
提案手法は,特に入力画像の重なりが限定された場合において,ポーズ要求手法よりも優れた新規ビュー合成品質が得られることを示す。
ポーズ推定では,提案手法は,真相の深さや明示的な一致損失を伴わずに訓練され,最先端の手法よりも大幅に向上した。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
コードとトレーニングされたモデルはhttps://noposplat.github.io/.com/で公開されている。
関連論文リスト
- PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - Visual SLAM with 3D Gaussian Primitives and Depth Priors Enabling Novel View Synthesis [11.236094544193605]
従来の幾何学に基づくSLAMシステムは、密度の高い3D再構成機能を持たない。
本稿では,新しいビュー合成技術である3次元ガウススプラッティングを組み込んだリアルタイムRGB-D SLAMシステムを提案する。
論文 参考訳(メタデータ) (2024-08-10T21:23:08Z) - A Construct-Optimize Approach to Sparse View Synthesis without Camera Pose [44.13819148680788]
カメラポーズを伴わないスパースビュー合成のための新しい構成と最適化手法を開発した。
具体的には、単分子深度と画素を3次元の世界に投影することで、解を構築する。
タンク・アンド・テンプル・アンド・スタティック・ハイクスのデータセットに3つの広い範囲のビューで結果を示す。
論文 参考訳(メタデータ) (2024-05-06T17:36:44Z) - GS2Mesh: Surface Reconstruction from Gaussian Splatting via Novel Stereo Views [9.175560202201819]
3Dガウススプラッティング(3DGS)はシーンを正確に表現するための効率的なアプローチとして登場した。
本稿では,ノイズの多い3DGS表現とスムーズな3Dメッシュ表現とのギャップを埋めるための新しい手法を提案する。
私たちは、オリジナルのトレーニングポーズに対応するステレオアライメントされたイメージのペアをレンダリングし、ペアをステレオモデルに入力して深度プロファイルを取得し、最後にすべてのプロファイルを融合して単一のメッシュを得る。
論文 参考訳(メタデータ) (2024-04-02T10:13:18Z) - latentSplat: Autoencoding Variational Gaussians for Fast Generalizable 3D Reconstruction [48.86083272054711]
latentSplatは3D潜在空間における意味ガウスを予測し、軽量な生成型2Dアーキテクチャで切り落としてデコードする手法である。
latentSplatは、高速でスケーラブルで高解像度なデータでありながら、復元品質と一般化におけるこれまでの成果よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-24T20:48:36Z) - iComMa: Inverting 3D Gaussian Splatting for Camera Pose Estimation via Comparing and Matching [14.737266480464156]
コンピュータビジョンにおける6次元カメラのポーズ推定問題に対処するため,iComMaという手法を提案する。
3次元ガウススプラッティング(3DGS)の反転による高精度カメラポーズ推定法を提案する。
論文 参考訳(メタデータ) (2023-12-14T15:31:33Z) - GPS-Gaussian: Generalizable Pixel-wise 3D Gaussian Splatting for Real-time Human Novel View Synthesis [70.24111297192057]
我々は、文字の新たなビューをリアルタイムに合成するための新しいアプローチ、GPS-Gaussianを提案する。
提案手法は,スパースビューカメラ設定下での2K解像度のレンダリングを可能にする。
論文 参考訳(メタデータ) (2023-12-04T18:59:55Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - CheckerPose: Progressive Dense Keypoint Localization for Object Pose
Estimation with Graph Neural Network [66.24726878647543]
単一のRGB画像から固い物体の6-DoFのポーズを推定することは、非常に難しい課題である。
近年の研究では、高密度対応型解の大きな可能性を示している。
そこで本研究では,CheckerPoseというポーズ推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-29T17:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。