論文の概要: iGaussian: Real-Time Camera Pose Estimation via Feed-Forward 3D Gaussian Splatting Inversion
- arxiv url: http://arxiv.org/abs/2511.14149v1
- Date: Tue, 18 Nov 2025 05:22:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.951429
- Title: iGaussian: Real-Time Camera Pose Estimation via Feed-Forward 3D Gaussian Splatting Inversion
- Title(参考訳): iGaussian:フィードフォワード3Dガウスプラッティングインバージョンによるリアルタイムカメラポーズ推定
- Authors: Hao Wang, Linqing Zhao, Xiuwei Xu, Jiwen Lu, Haibin Yan,
- Abstract要約: iGaussianは2段階のフィードフォワードフレームワークで、直接3Dガウス変換によるリアルタイムカメラポーズ推定を実現する。
NeRF Synthetic, Mip-NeRF 360, T&T+DB データセットの実験結果から, 従来の手法に比べて大幅な性能向上が得られた。
- 参考スコア(独自算出の注目度): 62.09575122593993
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent trends in SLAM and visual navigation have embraced 3D Gaussians as the preferred scene representation, highlighting the importance of estimating camera poses from a single image using a pre-built Gaussian model. However, existing approaches typically rely on an iterative \textit{render-compare-refine} loop, where candidate views are first rendered using NeRF or Gaussian Splatting, then compared against the target image, and finally, discrepancies are used to update the pose. This multi-round process incurs significant computational overhead, hindering real-time performance in robotics. In this paper, we propose iGaussian, a two-stage feed-forward framework that achieves real-time camera pose estimation through direct 3D Gaussian inversion. Our method first regresses a coarse 6DoF pose using a Gaussian Scene Prior-based Pose Regression Network with spatial uniform sampling and guided attention mechanisms, then refines it through feature matching and multi-model fusion. The key contribution lies in our cross-correlation module that aligns image embeddings with 3D Gaussian attributes without differentiable rendering, coupled with a Weighted Multiview Predictor that fuses features from Multiple strategically sampled viewpoints. Experimental results on the NeRF Synthetic, Mip-NeRF 360, and T\&T+DB datasets demonstrate a significant performance improvement over previous methods, reducing median rotation errors to 0.2° while achieving 2.87 FPS tracking on mobile robots, which is an impressive 10 times speedup compared to optimization-based approaches. Code: https://github.com/pythongod-exe/iGaussian
- Abstract(参考訳): SLAMとビジュアルナビゲーションの最近の傾向は、3Dガウスをシーン表現として採用しており、事前に構築されたガウスモデルを用いて1つの画像からカメラポーズを推定することの重要性を強調している。
しかし、既存のアプローチは、通常反復的 \textit{render-compare-refine} ループに依存しており、まず候補ビューをNeRFまたはガウススプラッティングを使用してレンダリングし、ターゲット画像と比較し、最後に、相違を利用してポーズを更新する。
このマルチラウンドプロセスは計算オーバーヘッドが大きくなり、ロボット工学におけるリアルタイムのパフォーマンスを阻害する。
本稿では,2段階のフィードフォワードフレームワークであるiGaussianを提案する。
提案手法はまず,空間的一様サンプリングと誘導型アテンション機構を備えたガウスシーン事前回帰ネットワークを用いて粗い6DoFポーズを回帰し,特徴マッチングと多モデル融合により改良する。
重要なコントリビューションは、画像埋め込みと3Dガウス属性を異なるレンダリングなしで整列するクロスコリレーションモジュールと、複数の戦略的にサンプリングされた視点から機能を融合する重み付きマルチビュー予測器です。
NeRF Synthetic, Mip-NeRF 360, T\&T+DBデータセットによる実験結果から, 従来手法よりも顕著な性能向上を示し, 中央値回転誤差を0.2°に低減し, 移動ロボットの2.87 FPS追跡を実現した。
コード:https://github.com/pythongod-exe/iGaussian
関連論文リスト
- SPFSplatV2: Efficient Self-Supervised Pose-Free 3D Gaussian Splatting from Sparse Views [18.814209805277503]
スパース多視点画像から3次元ガウススプラッティングを行うための効率的なフィードフォワードフレームワークであるSPFSplatV2について述べる。
ドメイン内およびドメイン外の新規ビュー合成において、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-09-21T21:37:56Z) - 3DGEER: Exact and Efficient Volumetric Rendering with 3D Gaussians [15.776720879897345]
本稿では3DGEER(Exact and Efficient Volumetric Gaussian Rendering method)を紹介する。
提案手法は従来手法を一貫して上回り, リアルタイムなニューラルレンダリングにおける新しい最先端技術を確立する。
論文 参考訳(メタデータ) (2025-05-29T22:52:51Z) - GPS-Gaussian+: Generalizable Pixel-wise 3D Gaussian Splatting for Real-Time Human-Scene Rendering from Sparse Views [67.34073368933814]
スパースビューカメラ設定下での高解像度画像レンダリングのための一般化可能なガウススプラッティング手法を提案する。
我々は,人間のみのデータや人景データに基づいてガウスパラメータ回帰モジュールをトレーニングし,深度推定モジュールと共同で2次元パラメータマップを3次元空間に引き上げる。
いくつかのデータセットに対する実験により、我々の手法はレンダリング速度を超越しながら最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-11-18T08:18:44Z) - No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。
提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:22Z) - UniGS: Modeling Unitary 3D Gaussians for Novel View Synthesis from Sparse-view Images [20.089890859122168]
我々は,新しい3次元ガウス再構成と新しいビュー合成モデルであるUniGSを紹介する。
UniGSは、任意の数のスパースビュー画像から3Dガウスの高忠実度表現を予測する。
論文 参考訳(メタデータ) (2024-10-17T03:48:02Z) - EVA-Gaussian: 3D Gaussian-based Real-time Human Novel View Synthesis under Diverse Multi-view Camera Settings [11.248908608011941]
3次元ガウス散乱法は、人間のモデルに対するリアルタイムな新しいビュー合成において、例外的な能力を示した。
本研究では,多様なマルチビューカメラ設定にまたがる3次元新規ビュー合成のためのEVA-Gaussianという新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2024-10-02T11:23:08Z) - PUP 3D-GS: Principled Uncertainty Pruning for 3D Gaussian Splatting [59.277480452459315]
本研究では,視覚的忠実度と前景の細部を高い圧縮比で保持する原理的感度プルーニングスコアを提案する。
また,トレーニングパイプラインを変更することなく,事前訓練した任意の3D-GSモデルに適用可能な複数ラウンドプルーファインパイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-14T17:53:55Z) - MVSplat: Efficient 3D Gaussian Splatting from Sparse Multi-View Images [102.7646120414055]
入力としてスパースなマルチビュー画像を与えられたMVSplatは、クリーンなフィードフォワード3Dガウスを予測できる。
大規模RealEstate10KとACIDベンチマークでは、MVSplatは高速フィードフォワード推論速度(22fps)で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-03-21T17:59:58Z) - GVA: Reconstructing Vivid 3D Gaussian Avatars from Monocular Videos [56.40776739573832]
モノクロビデオ入力(GVA)から鮮明な3Dガウスアバターの作成を容易にする新しい手法を提案する。
私たちのイノベーションは、高忠実な人体再構築を実現するという、複雑な課題に対処することにあります。
通常の地図とシルエットを整列させて手足のポーズ精度を向上させるためにポーズ改善手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T14:40:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。