論文の概要: GRLoc: Geometric Representation Regression for Visual Localization
- arxiv url: http://arxiv.org/abs/2511.13864v1
- Date: Mon, 17 Nov 2025 19:30:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.765337
- Title: GRLoc: Geometric Representation Regression for Visual Localization
- Title(参考訳): GRLoc:ビジュアルローカライゼーションのための幾何学的表現回帰
- Authors: Changyang Li, Xuejian Ma, Lixiang Liu, Zhan Li, Qingan Yan, Yi Xu,
- Abstract要約: 絶対的なPose回帰は、視覚的ローカライゼーションの魅力的なパラダイムとして現れています。
本研究では,幾何学的な代替案を提案する。
7-ScenesとCambridge Landmarksのデータセットで最先端のパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 14.972457710617816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Absolute Pose Regression (APR) has emerged as a compelling paradigm for visual localization. However, APR models typically operate as black boxes, directly regressing a 6-DoF pose from a query image, which can lead to memorizing training views rather than understanding 3D scene geometry. In this work, we propose a geometrically-grounded alternative. Inspired by novel view synthesis, which renders images from intermediate geometric representations, we reformulate APR as its inverse that regresses the underlying 3D representations directly from the image, and we name this paradigm Geometric Representation Regression (GRR). Our model explicitly predicts two disentangled geometric representations in the world coordinate system: (1) a ray bundle's directions to estimate camera rotation, and (2) a corresponding pointmap to estimate camera translation. The final 6-DoF camera pose is then recovered from these geometric components using a differentiable deterministic solver. This disentangled approach, which separates the learned visual-to-geometry mapping from the final pose calculation, introduces a strong geometric prior into the network. We find that the explicit decoupling of rotation and translation predictions measurably boosts performance. We demonstrate state-of-the-art performance on 7-Scenes and Cambridge Landmarks datasets, validating that modeling the inverse rendering process is a more robust path toward generalizable absolute pose estimation.
- Abstract(参考訳): APR(Absolute Pose Regression)は、視覚的ローカライゼーションのための魅力的なパラダイムとして登場した。
しかし、APRモデルは一般にブラックボックスとして動作し、クエリイメージから6-DoFのポーズを直接退避させる。
本研究では,幾何学的な代替案を提案する。
中間幾何学的表現から画像を描画する新しいビュー合成にインスパイアされ、APRを逆転して画像から直接基礎となる3次元表現を回帰させ、このパラダイムをGeometric Representation Regression(GRR)と命名する。
本モデルは,(1)カメラの回転を推定するための光束の方向,(2)カメラの回転を推定するための対応する点マップの2つの不整合幾何学的表現を明示的に予測する。
最後の6-DoFカメラのポーズは、微分可能な決定論的解法を用いてこれらの幾何学的成分から回収される。
この不整合アプローチは、学習した視覚と幾何学のマッピングを最終ポーズの計算から切り離し、ネットワークに強い幾何学的事前を導入する。
回転と翻訳予測の明示的な分離により,性能が向上することが判明した。
7シーンとCambridge Landmarksデータセットの最先端性能を実証し、逆レンダリングプロセスのモデリングが一般化可能な絶対ポーズ推定へのより堅牢な経路であることを検証した。
関連論文リスト
- Perspective from a Higher Dimension: Can 3D Geometric Priors Help Visual Floorplan Localization? [8.82283453148819]
建物のフロアプランの自己ローカライズは研究者の興味を引き付けている。
フロアプランは建物の構造を最小限に表現するので、視覚的知覚とフロアプランの様相や幾何学的差異がこの課題に挑戦する。
既存の手法では、2次元幾何学的特徴とポーズフィルタを巧みに利用して有望な性能を実現する。
本稿では,2次元フロアプランの局所化問題を視覚的FLOCアルゴリズムに3次元幾何学的先行点を注入することにより高次元から考察する。
論文 参考訳(メタデータ) (2025-07-25T01:34:26Z) - Dens3R: A Foundation Model for 3D Geometry Prediction [44.13431776180547]
Dens3Rは幾何学的密度予測のための3次元基礎モデルである。
画像対マッチング機能と本質的不変性モデリングを統合することにより、Dens3Rは複数の幾何学的量を正確に回帰する。
論文 参考訳(メタデータ) (2025-07-22T07:22:30Z) - DualPM: Dual Posed-Canonical Point Maps for 3D Shape and Pose Reconstruction [67.13370009386635]
そこで,Dual Point Map (DualPM)を導入し,同じ画像一点関連画素からオブジェクト上の3D位置へ,残りのポーズでオブジェクトの標準バージョンへ,一対の点マップを抽出する。
3次元再構成と3次元ポーズ推定はDualPMの予測に還元できることを示す。
論文 参考訳(メタデータ) (2024-12-05T18:59:48Z) - Geometric Point Attention Transformer for 3D Shape Reassembly [17.34739330880715]
本稿では,幾何学的関係に関する推論の課題に対処するネットワークを提案する。
我々は大域的な形状情報と局所的な対幾何学的特徴と、各部分の回転ベクトルや変換ベクトルとして表されるポーズを統合する。
意味的および幾何学的組立作業におけるモデルの評価を行い、絶対的なポーズ推定において従来の手法よりも優れていたことを示す。
論文 参考訳(メタデータ) (2024-11-26T15:29:38Z) - RelPose++: Recovering 6D Poses from Sparse-view Observations [66.6922660401558]
スパースビュー画像集合(2-8画像)から6次元カメラポーズを推定する作業に対処する。
我々は,画像対上の相対回転よりも分布を推定するネットワークを学習するRelPoseフレームワークを構築した。
最終システムは,先行技術よりも6次元ポーズ予測を大幅に改善する。
論文 参考訳(メタデータ) (2023-05-08T17:59:58Z) - Exploring intermediate representation for monocular vehicle pose
estimation [38.85309013717312]
1枚のRGB画像からSO(3)の車両ポーズを復元する学習ベースの新しいフレームワークを提案する。
局所的な外観から観測角度へマッピングする以前の作品とは対照的に、我々は意味のある中間幾何学的表現(IGR)を抽出して進歩的なアプローチを探求する。
このアプローチは、知覚強度をIGRに変換するディープモデルを特徴とし、カメラ座標系における物体の向きを符号化する3次元表現にマッピングする。
論文 参考訳(メタデータ) (2020-11-17T06:30:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。