論文の概要: ZeroGS: Training 3D Gaussian Splatting from Unposed Images
- arxiv url: http://arxiv.org/abs/2411.15779v1
- Date: Sun, 24 Nov 2024 11:20:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:20:51.823069
- Title: ZeroGS: Training 3D Gaussian Splatting from Unposed Images
- Title(参考訳): ZeroGS、画像から3Dガウス撮影を訓練中
- Authors: Yu Chen, Rolandos Alexandros Potamias, Evangelos Ververas, Jifei Song, Jiankang Deng, Gim Hee Lee,
- Abstract要約: 我々はZeroGSを提案し、3DGSを何百もの未提示画像から訓練する。
本手法は,事前学習した基礎モデルをニューラルネットワークのシーン表現として活用する。
提案手法は,最先端のポーズレスNeRF/3DGS法よりも高精度なカメラポーズを復元する。
- 参考スコア(独自算出の注目度): 62.34149221132978
- License:
- Abstract: Neural radiance fields (NeRF) and 3D Gaussian Splatting (3DGS) are popular techniques to reconstruct and render photo-realistic images. However, the pre-requisite of running Structure-from-Motion (SfM) to get camera poses limits their completeness. While previous methods can reconstruct from a few unposed images, they are not applicable when images are unordered or densely captured. In this work, we propose ZeroGS to train 3DGS from hundreds of unposed and unordered images. Our method leverages a pretrained foundation model as the neural scene representation. Since the accuracy of the predicted pointmaps does not suffice for accurate image registration and high-fidelity image rendering, we propose to mitigate the issue by initializing and finetuning the pretrained model from a seed image. Images are then progressively registered and added to the training buffer, which is further used to train the model. We also propose to refine the camera poses and pointmaps by minimizing a point-to-camera ray consistency loss across multiple views. Experiments on the LLFF dataset, the MipNeRF360 dataset, and the Tanks-and-Temples dataset show that our method recovers more accurate camera poses than state-of-the-art pose-free NeRF/3DGS methods, and even renders higher quality images than 3DGS with COLMAP poses. Our project page is available at https://aibluefisher.github.io/ZeroGS.
- Abstract(参考訳): ニューラルレーダランス場(NeRF)と3Dガウススプラッティング(3DGS)は、フォトリアリスティック画像の再構成と描画に一般的な技術である。
しかし、カメラを手に入れるためにStructure-from-Motion(SfM)を実行するという前提条件は、その完全性を制限する。
以前の方法では、いくつかの未表示画像から再構成できるが、画像が非順序または密にキャプチャされた場合には適用できない。
そこで本研究ではZeroGSを用いて,何百もの未表示画像から3DGSをトレーニングする。
本手法は,事前学習した基礎モデルをニューラルネットワークのシーン表現として活用する。
予測された点マップの精度は、正確な画像登録や高忠実度画像レンダリングに十分ではないため、予め訓練されたモデルをシード画像から初期化・微調整することで問題を緩和することを提案する。
その後、画像は徐々に登録され、トレーニングバッファに追加される。
また,複数のビューにまたがるポイント・ツー・カメラ・レイの一貫性損失を最小限に抑え,カメラのポーズやポイントマップを改良することを提案する。
LLFFデータセット、MipNeRF360データセット、およびTamples-and-Templesデータセットを用いた実験により、我々の手法は最先端のポーズレスNeRF/3DGS手法よりも正確なカメラポーズを復元し、COLMAPのポーズで3DGSよりも高品質な画像をレンダリングすることを示した。
プロジェクトページはhttps://aibluefisher.github.io/ZeroGS.comで公開されている。
関連論文リスト
- KeyGS: A Keyframe-Centric Gaussian Splatting Method for Monocular Image Sequences [14.792295042683254]
深度やマッチングモデルなしで動作可能な,効率的なフレームワークを提案する。
そこで本研究では,細かな周波数認識による粗大な密度密度化を提案し,異なるレベルの詳細を再構築する。
論文 参考訳(メタデータ) (2024-12-30T07:32:35Z) - SfM-Free 3D Gaussian Splatting via Hierarchical Training [42.85362760049813]
本研究では、ビデオ入力のための新しいSfM-Free 3DGS(SFGS)手法を提案し、既知のカメラポーズやSfM前処理の必要性を排除した。
提案手法では,複数の3次元ガウス表現を1つの統一3DGSモデルに訓練・統合する階層的学習戦略を導入する。
実験の結果,本手法は最先端のSfMフリー新規ビュー合成法を大きく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-12-02T14:39:06Z) - No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。
提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:22Z) - LM-Gaussian: Boost Sparse-view 3D Gaussian Splatting with Large Model Priors [34.91966359570867]
スパースビューの再構築は本質的に不適切であり、制約を受けていない。
本稿では,限られた画像から高品質な再構成を生成できるLM-Gaussianを紹介する。
提案手法は,従来の3DGS法と比較してデータ取得要求を大幅に削減する。
論文 参考訳(メタデータ) (2024-09-05T12:09:02Z) - Flash3D: Feed-Forward Generalisable 3D Scene Reconstruction from a Single Image [80.48452783328995]
Flash3Dは、1つの画像からシーン再構成と新しいビュー合成を行う方法である。
一般性については、単分子深度推定のための「基礎」モデルから始める。
効率性のために、我々はこの拡張をフィードフォワードガウススプラッティングに基づける。
論文 参考訳(メタデータ) (2024-06-06T17:59:56Z) - Splatter Image: Ultra-Fast Single-View 3D Reconstruction [67.96212093828179]
Splatter ImageはGaussian Splattingをベースにしており、複数の画像から3Dシーンを高速かつ高品質に再現することができる。
テスト時に38FPSでフィードフォワードで再構成を行うニューラルネットワークを学習する。
いくつかの総合、実、マルチカテゴリ、大規模ベンチマークデータセットにおいて、トレーニング中にPSNR、LPIPS、その他のメトリクスでより良い結果を得る。
論文 参考訳(メタデータ) (2023-12-20T16:14:58Z) - COLMAP-Free 3D Gaussian Splatting [88.420322646756]
本稿では,SfM前処理を使わずに新しいビュー合成を実現する手法を提案する。
入力フレームを逐次的に処理し、一度に1つの入力フレームを取ることで3Dガウスを段階的に成長させる。
提案手法は, 映像合成とカメラポーズ推定において, 大きな動き変化下での従来手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-12-12T18:39:52Z) - 3D generation on ImageNet [76.0440752186121]
3DGP: トレーニングデータに関するより一般的な仮定を持つ3D合成フレームワークを開発した。
私たちのモデルは3つの新しいアイデアに基づいている。
SDIP Dogs 256x256, SDIP Elephants 256x256, LSUN Horses 256x256, ImageNet 256x256の4つのデータセットについて検討を行った。
論文 参考訳(メタデータ) (2023-03-02T17:06:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。