論文の概要: SGLoc: Semantic Localization System for Camera Pose Estimation from 3D Gaussian Splatting Representation
- arxiv url: http://arxiv.org/abs/2507.12027v1
- Date: Wed, 16 Jul 2025 08:39:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.309755
- Title: SGLoc: Semantic Localization System for Camera Pose Estimation from 3D Gaussian Splatting Representation
- Title(参考訳): SGLOC:3次元ガウス平滑化表現を用いたカメラポス推定のための意味的位置推定システム
- Authors: Beining Xu, Siting Zhu, Hesheng Wang,
- Abstract要約: セマンティック情報を活用することで,3次元ガウススプラッティング(3DGS)表現から直接カメラポーズを回帰する新たなローカライズシステムであるSGLocを提案する。
提案手法は,2次元画像と3次元シーン表現のセマンティックな関係を利用して,事前のポーズ情報なしで6DoFポーズを推定する。
- 参考スコア(独自算出の注目度): 9.77843053500054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose SGLoc, a novel localization system that directly regresses camera poses from 3D Gaussian Splatting (3DGS) representation by leveraging semantic information. Our method utilizes the semantic relationship between 2D image and 3D scene representation to estimate the 6DoF pose without prior pose information. In this system, we introduce a multi-level pose regression strategy that progressively estimates and refines the pose of query image from the global 3DGS map, without requiring initial pose priors. Moreover, we introduce a semantic-based global retrieval algorithm that establishes correspondences between 2D (image) and 3D (3DGS map). By matching the extracted scene semantic descriptors of 2D query image and 3DGS semantic representation, we align the image with the local region of the global 3DGS map, thereby obtaining a coarse pose estimation. Subsequently, we refine the coarse pose by iteratively optimizing the difference between the query image and the rendered image from 3DGS. Our SGLoc demonstrates superior performance over baselines on 12scenes and 7scenes datasets, showing excellent capabilities in global localization without initial pose prior. Code will be available at https://github.com/IRMVLab/SGLoc.
- Abstract(参考訳): セマンティック情報を活用することで,3次元ガウススプラッティング(3DGS)表現から直接カメラポーズを回帰する新たなローカライズシステムであるSGLocを提案する。
提案手法は,2次元画像と3次元シーン表現のセマンティックな関係を利用して,事前のポーズ情報なしで6DoFポーズを推定する。
本稿では,グローバルな3DGSマップからのクエリ画像のポーズを,初期ポーズ前処理を必要とせず,段階的に推定・改善する多段階のポーズ回帰戦略を提案する。
さらに,2次元(画像)と3次元(3DGSマップ)の対応性を確立する意味に基づくグローバル検索アルゴリズムを提案する。
抽出した2Dクエリ画像と3DGSセマンティック表現のシーン意味記述子をマッチングすることにより、画像をグローバルな3DGSマップの局所領域と整列し、粗いポーズ推定を得る。
その後、クエリ画像とレンダリング画像との差を3DGSから反復的に最適化することにより、粗いポーズを洗練する。
我々のSGLocは12scenesと7scenesデータセットのベースラインよりも優れたパフォーマンスを示し、初期ポーズなしでグローバルなローカライゼーションに優れた性能を示す。
コードはhttps://github.com/IRMVLab/SGLoc.comから入手できる。
関連論文リスト
- IGL-Nav: Incremental 3D Gaussian Localization for Image-goal Navigation [78.00035681410348]
IGL-Navは、効率的で3D対応の画像ゴールナビゲーションのためのインクリメンタルな3Dガウスフレームワークである。
より困難な自由視点のイメージゴール設定を処理し、現実世界のロボットプラットフォームにデプロイすることができる。
論文 参考訳(メタデータ) (2025-08-01T17:59:56Z) - Gaussian Splatting Feature Fields for Privacy-Preserving Visual Localization [29.793562435104707]
本稿では,3DGSモデルと暗黙的特徴場を組み合わせた視覚的ローカライゼーションのためのシーン表現を提案する。
表現学習を正規化し,特徴をセグメンテーションにシームレスに変換するために,3次元構造インフォームドクラスタリング手法を用いる。
複数の実世界のデータセットで評価された結果として生じるプライバシと非プライバシ保存のローカライゼーションパイプラインは、最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-07-31T13:58:15Z) - EG-Gaussian: Epipolar Geometry and Graph Network Enhanced 3D Gaussian Splatting [9.94641948288285]
EG-Gaussianは3次元シーン再構成にエピポーラ幾何学とグラフネットワークを利用する。
提案手法は3DGS法と比較して再構成精度を著しく向上させる。
論文 参考訳(メタデータ) (2025-04-18T08:10:39Z) - OVGaussian: Generalizable 3D Gaussian Segmentation with Open Vocabularies [112.80292725951921]
textbfOVGaussianは3D textbfGaussian表現に基づいた、一般化可能なtextbfOpen-textbfVocabulary 3Dセマンティックセマンティックセグメンテーションフレームワークである。
まず,3DGSをベースとした大規模3Dシーンデータセット(textbfSegGaussian)を構築し,ガウス点とマルチビュー画像の両方に対して詳細なセマンティックおよびインスタンスアノテーションを提供する。
シーン間のセマンティック・一般化を促進するために,ジェネリック・セマンティック・ラスタライゼーション(GSR)を導入する。
論文 参考訳(メタデータ) (2024-12-31T07:55:35Z) - Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。
FreeGSは複雑なデータ前処理のワークロードを避けながら、最先端のメソッドと互換性がある。
論文 参考訳(メタデータ) (2024-11-29T08:52:32Z) - No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。
提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:22Z) - LoGS: Visual Localization via Gaussian Splatting with Fewer Training Images [7.363332481155945]
本稿では,3D Splatting (GS) 技術をシーン表現として活用した視覚に基づくローカライゼーションパイプラインを提案する。
マッピングフェーズでは、まずStructure-from-motion(SfM)を適用し、続いてGSマップを生成する。
高精度なポーズは、地図上で解析的に達成される。
論文 参考訳(メタデータ) (2024-10-15T11:17:18Z) - GSplatLoc: Grounding Keypoint Descriptors into 3D Gaussian Splatting for Improved Visual Localization [1.4466437171584356]
軽量なXFeat特徴抽出器から高密度かつ堅牢なキーポイント記述器を3DGSに統合する2段階の手順を提案する。
第2段階では、レンダリングベースの光度ワープ損失を最小限に抑え、初期ポーズ推定を洗練させる。
広く使われている屋内および屋外データセットのベンチマークは、最近のニューラルレンダリングベースのローカライゼーション手法よりも改善されていることを示している。
論文 参考訳(メタデータ) (2024-09-24T23:18:32Z) - InstantSplat: Sparse-view Gaussian Splatting in Seconds [91.77050739918037]
InstantSplatは,光速でスパークビュー3Dシーンを再現する新しい手法である。
InstantSplatでは,3Dシーン表現とカメラポーズを最適化する,自己管理フレームワークを採用している。
3D-GSの従来のSfMと比較して、30倍以上の再現を達成し、視覚的品質(SSIM)を0.3755から0.7624に改善する。
論文 参考訳(メタデータ) (2024-03-29T17:29:58Z) - GS-CLIP: Gaussian Splatting for Contrastive Language-Image-3D
Pretraining from Real-World Data [73.06536202251915]
ポイントクラウドとして表される3D形状は、画像と言語記述を整列させるために、マルチモーダル事前トレーニングの進歩を実現している。
GS-CLIPは,3D表現を向上させるために,マルチモーダル事前学習に3DGSを導入するための最初の試みである。
論文 参考訳(メタデータ) (2024-02-09T05:46:47Z) - Geometric Correspondence Fields: Learned Differentiable Rendering for 3D
Pose Refinement in the Wild [96.09941542587865]
野生の任意のカテゴリのオブジェクトに対する微分可能レンダリングに基づく新しい3次元ポーズ精細化手法を提案する。
このようにして、3DモデルとRGB画像のオブジェクトを正確に整列し、3Dポーズ推定を大幅に改善する。
我々は、Pix3Dデータセットの挑戦に対するアプローチを評価し、複数のメトリクスにおける最先端の精錬手法と比較して、最大55%の改善を実現した。
論文 参考訳(メタデータ) (2020-07-17T12:34:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。