論文の概要: SPFSplatV2: Efficient Self-Supervised Pose-Free 3D Gaussian Splatting from Sparse Views
- arxiv url: http://arxiv.org/abs/2509.17246v1
- Date: Sun, 21 Sep 2025 21:37:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.182466
- Title: SPFSplatV2: Efficient Self-Supervised Pose-Free 3D Gaussian Splatting from Sparse Views
- Title(参考訳): SPFSplatV2: スパースビューからの効率的な自己監督型ポーズフリー3Dガウススプレイティング
- Authors: Ranran Huang, Krystian Mikolajczyk,
- Abstract要約: スパース多視点画像から3次元ガウススプラッティングを行うための効率的なフィードフォワードフレームワークであるSPFSplatV2について述べる。
ドメイン内およびドメイン外の新規ビュー合成において、最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 18.814209805277503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce SPFSplatV2, an efficient feed-forward framework for 3D Gaussian splatting from sparse multi-view images, requiring no ground-truth poses during training and inference. It employs a shared feature extraction backbone, enabling simultaneous prediction of 3D Gaussian primitives and camera poses in a canonical space from unposed inputs. A masked attention mechanism is introduced to efficiently estimate target poses during training, while a reprojection loss enforces pixel-aligned Gaussian primitives, providing stronger geometric constraints. We further demonstrate the compatibility of our training framework with different reconstruction architectures, resulting in two model variants. Remarkably, despite the absence of pose supervision, our method achieves state-of-the-art performance in both in-domain and out-of-domain novel view synthesis, even under extreme viewpoint changes and limited image overlap, and surpasses recent methods that rely on geometric supervision for relative pose estimation. By eliminating dependence on ground-truth poses, our method offers the scalability to leverage larger and more diverse datasets. Code and pretrained models will be available on our project page: https://ranrhuang.github.io/spfsplatv2/.
- Abstract(参考訳): 本研究では,スパース多視点画像から3次元ガウススプラッティングを行うための効率的なフィードフォワードフレームワークであるSPFSplatV2を紹介する。
共有特徴抽出バックボーンを使用し、3Dガウスプリミティブとカメラポーズの同時予測を可能にする。
トレーニング中のターゲットポーズを効率的に推定するマスク付きアテンション機構を導入し、再投射損失は画素整列ガウスプリミティブを強制し、より強い幾何学的制約を与える。
さらに、異なる再構築アーキテクチャとトレーニングフレームワークの互換性を実証し、2つのモデル変異をもたらす。
提案手法は,ポーズの監督が欠如しているにもかかわらず,極端な視点の変化や画像重複の制限の下でも,ドメイン内とドメイン外の両方で最先端の視点合成を実現し,相対的なポーズ推定に幾何学的監督に依存する手法を超越している。
そこで本手法では,地平線に頼らないことで,より大規模で多様なデータセットを活用できるスケーラビリティを実現する。
コードと事前トレーニングされたモデルは、プロジェクトのページで利用可能になる。
関連論文リスト
- No Pose at All: Self-Supervised Pose-Free 3D Gaussian Splatting from Sparse Views [17.221166075016257]
SPFSplatはスパース多視点画像から3次元ガウススプラッティングを行うための効率的なフレームワークである。
共有機能抽出バックボーンを使用し、3Dガウスプリミティブとカメラポーズの同時予測を可能にする。
視点の大幅な変化や画像重なりの制限の下でも、新しいビュー合成における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-08-02T03:19:13Z) - UFV-Splatter: Pose-Free Feed-Forward 3D Gaussian Splatting Adapted to Unfavorable Views [9.974268614169155]
フィードフォワードをトレーニングするための一般的なレンダリング設定は、世界の起源に3Dオブジェクトを配置し、原点に向かって向けられたカメラからレンダリングする。
本稿では、事前訓練されたポーズなしフィードフォワード3DGSモデルで好ましくないビューを処理できる新しい適応フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-30T02:56:47Z) - Hi^2-GSLoc: Dual-Hierarchical Gaussian-Specific Visual Relocalization for Remote Sensing [6.997091164331322]
リモートセンシングやUAVアプリケーションには、視覚的再ローカライゼーションが不可欠である。
画像に基づく検索とポーズ回帰アプローチは精度に欠ける。
スパース・トゥ・デンス(sparse-to-dense)と粗粒度(arse-to-fine)のパラダイムに従う二重階層的再ローカライゼーションフレームワークである$mathrmHi2$-GSLocを紹介した。
論文 参考訳(メタデータ) (2025-07-21T14:47:56Z) - GPS-Gaussian+: Generalizable Pixel-wise 3D Gaussian Splatting for Real-Time Human-Scene Rendering from Sparse Views [67.34073368933814]
スパースビューカメラ設定下での高解像度画像レンダリングのための一般化可能なガウススプラッティング手法を提案する。
我々は,人間のみのデータや人景データに基づいてガウスパラメータ回帰モジュールをトレーニングし,深度推定モジュールと共同で2次元パラメータマップを3次元空間に引き上げる。
いくつかのデータセットに対する実験により、我々の手法はレンダリング速度を超越しながら最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-11-18T08:18:44Z) - No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。
提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:22Z) - PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - GVA: Reconstructing Vivid 3D Gaussian Avatars from Monocular Videos [56.40776739573832]
モノクロビデオ入力(GVA)から鮮明な3Dガウスアバターの作成を容易にする新しい手法を提案する。
私たちのイノベーションは、高忠実な人体再構築を実現するという、複雑な課題に対処することにあります。
通常の地図とシルエットを整列させて手足のポーズ精度を向上させるためにポーズ改善手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T14:40:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。