論文の概要: GRLoc: Geometric Representation Regression for Visual Localization
- arxiv url: http://arxiv.org/abs/2511.13864v1
- Date: Mon, 17 Nov 2025 19:30:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.765337
- Title: GRLoc: Geometric Representation Regression for Visual Localization
- Title(参考訳): GRLoc:ビジュアルローカライゼーションのための幾何学的表現回帰
- Authors: Changyang Li, Xuejian Ma, Lixiang Liu, Zhan Li, Qingan Yan, Yi Xu,
- Abstract要約: 絶対的なPose回帰は、視覚的ローカライゼーションの魅力的なパラダイムとして現れています。
本研究では,幾何学的な代替案を提案する。
7-ScenesとCambridge Landmarksのデータセットで最先端のパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 14.972457710617816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Absolute Pose Regression (APR) has emerged as a compelling paradigm for visual localization. However, APR models typically operate as black boxes, directly regressing a 6-DoF pose from a query image, which can lead to memorizing training views rather than understanding 3D scene geometry. In this work, we propose a geometrically-grounded alternative. Inspired by novel view synthesis, which renders images from intermediate geometric representations, we reformulate APR as its inverse that regresses the underlying 3D representations directly from the image, and we name this paradigm Geometric Representation Regression (GRR). Our model explicitly predicts two disentangled geometric representations in the world coordinate system: (1) a ray bundle's directions to estimate camera rotation, and (2) a corresponding pointmap to estimate camera translation. The final 6-DoF camera pose is then recovered from these geometric components using a differentiable deterministic solver. This disentangled approach, which separates the learned visual-to-geometry mapping from the final pose calculation, introduces a strong geometric prior into the network. We find that the explicit decoupling of rotation and translation predictions measurably boosts performance. We demonstrate state-of-the-art performance on 7-Scenes and Cambridge Landmarks datasets, validating that modeling the inverse rendering process is a more robust path toward generalizable absolute pose estimation.
- Abstract(参考訳): APR(Absolute Pose Regression)は、視覚的ローカライゼーションのための魅力的なパラダイムとして登場した。
しかし、APRモデルは一般にブラックボックスとして動作し、クエリイメージから6-DoFのポーズを直接退避させる。
本研究では,幾何学的な代替案を提案する。
中間幾何学的表現から画像を描画する新しいビュー合成にインスパイアされ、APRを逆転して画像から直接基礎となる3次元表現を回帰させ、このパラダイムをGeometric Representation Regression(GRR)と命名する。
本モデルは,(1)カメラの回転を推定するための光束の方向,(2)カメラの回転を推定するための対応する点マップの2つの不整合幾何学的表現を明示的に予測する。
最後の6-DoFカメラのポーズは、微分可能な決定論的解法を用いてこれらの幾何学的成分から回収される。
この不整合アプローチは、学習した視覚と幾何学のマッピングを最終ポーズの計算から切り離し、ネットワークに強い幾何学的事前を導入する。
回転と翻訳予測の明示的な分離により,性能が向上することが判明した。
7シーンとCambridge Landmarksデータセットの最先端性能を実証し、逆レンダリングプロセスのモデリングが一般化可能な絶対ポーズ推定へのより堅牢な経路であることを検証した。
関連論文リスト
- RnG: A Unified Transformer for Complete 3D Modeling from Partial Observations [70.83499963694238]
RnG(Reconstruction and Generation)は、再構成と生成を統合する新しいフィードフォワードトランスである。
可視的幾何学を再構築し、可視的でコヒーレントな不明瞭な幾何学と外観を生成する。
提案手法は, 一般化可能な3次元再構成と新しいビュー生成の両方において, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2026-03-01T17:25:32Z) - G3Splat: Geometrically Consistent Generalizable Gaussian Splatting [30.752029360892504]
本稿では,幾何学的に一貫した3次元シーン表現を得るために,幾何学的先行を強制するG3Splatを紹介する。
提案手法はRE10Kを用いて, (i) 幾何的一貫した再構成, (ii) 相対的なポーズ推定, (iii) 新規なビュー合成における最先端性能を実現する。
論文 参考訳(メタデータ) (2025-12-19T13:11:55Z) - Perspective from a Higher Dimension: Can 3D Geometric Priors Help Visual Floorplan Localization? [8.82283453148819]
建物のフロアプランの自己ローカライズは研究者の興味を引き付けている。
フロアプランは建物の構造を最小限に表現するので、視覚的知覚とフロアプランの様相や幾何学的差異がこの課題に挑戦する。
既存の手法では、2次元幾何学的特徴とポーズフィルタを巧みに利用して有望な性能を実現する。
本稿では,2次元フロアプランの局所化問題を視覚的FLOCアルゴリズムに3次元幾何学的先行点を注入することにより高次元から考察する。
論文 参考訳(メタデータ) (2025-07-25T01:34:26Z) - Dens3R: A Foundation Model for 3D Geometry Prediction [44.13431776180547]
Dens3Rは幾何学的密度予測のための3次元基礎モデルである。
画像対マッチング機能と本質的不変性モデリングを統合することにより、Dens3Rは複数の幾何学的量を正確に回帰する。
論文 参考訳(メタデータ) (2025-07-22T07:22:30Z) - FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views [100.45129752375658]
FLAREは、高品質カメラのポーズと3次元幾何を、補正されていないスパースビュー画像から推定するために設計されたフィードフォワードモデルである。
本ソリューションでは,3次元構造を2次元画像平面にマッピングする上で,カメラポーズが重要なブリッジとして機能するケースケード学習パラダイムを特徴とする。
論文 参考訳(メタデータ) (2025-02-17T18:54:05Z) - DualPM: Dual Posed-Canonical Point Maps for 3D Shape and Pose Reconstruction [67.13370009386635]
そこで,Dual Point Map (DualPM)を導入し,同じ画像一点関連画素からオブジェクト上の3D位置へ,残りのポーズでオブジェクトの標準バージョンへ,一対の点マップを抽出する。
3次元再構成と3次元ポーズ推定はDualPMの予測に還元できることを示す。
論文 参考訳(メタデータ) (2024-12-05T18:59:48Z) - Geometric Point Attention Transformer for 3D Shape Reassembly [17.34739330880715]
本稿では,幾何学的関係に関する推論の課題に対処するネットワークを提案する。
我々は大域的な形状情報と局所的な対幾何学的特徴と、各部分の回転ベクトルや変換ベクトルとして表されるポーズを統合する。
意味的および幾何学的組立作業におけるモデルの評価を行い、絶対的なポーズ推定において従来の手法よりも優れていたことを示す。
論文 参考訳(メタデータ) (2024-11-26T15:29:38Z) - RelPose++: Recovering 6D Poses from Sparse-view Observations [66.6922660401558]
スパースビュー画像集合(2-8画像)から6次元カメラポーズを推定する作業に対処する。
我々は,画像対上の相対回転よりも分布を推定するネットワークを学習するRelPoseフレームワークを構築した。
最終システムは,先行技術よりも6次元ポーズ予測を大幅に改善する。
論文 参考訳(メタデータ) (2023-05-08T17:59:58Z) - Self-supervised Geometric Perception [96.89966337518854]
自己教師付き幾何知覚(self-supervised geometric perception)は、基底幾何モデルラベルなしで対応マッチングのための特徴記述子を学ぶためのフレームワークである。
また,SGPは,地上トラスラベルを用いて訓練した教師付きオークルよりも同等か優れる最先端性能を達成できることを示す。
論文 参考訳(メタデータ) (2021-03-04T15:34:43Z) - Exploring intermediate representation for monocular vehicle pose
estimation [38.85309013717312]
1枚のRGB画像からSO(3)の車両ポーズを復元する学習ベースの新しいフレームワークを提案する。
局所的な外観から観測角度へマッピングする以前の作品とは対照的に、我々は意味のある中間幾何学的表現(IGR)を抽出して進歩的なアプローチを探求する。
このアプローチは、知覚強度をIGRに変換するディープモデルを特徴とし、カメラ座標系における物体の向きを符号化する3次元表現にマッピングする。
論文 参考訳(メタデータ) (2020-11-17T06:30:51Z) - Geometric Correspondence Fields: Learned Differentiable Rendering for 3D
Pose Refinement in the Wild [96.09941542587865]
野生の任意のカテゴリのオブジェクトに対する微分可能レンダリングに基づく新しい3次元ポーズ精細化手法を提案する。
このようにして、3DモデルとRGB画像のオブジェクトを正確に整列し、3Dポーズ推定を大幅に改善する。
我々は、Pix3Dデータセットの挑戦に対するアプローチを評価し、複数のメトリクスにおける最先端の精錬手法と比較して、最大55%の改善を実現した。
論文 参考訳(メタデータ) (2020-07-17T12:34:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。