論文の概要: GeLoc3r: Enhancing Relative Camera Pose Regression with Geometric Consistency Regularization
- arxiv url: http://arxiv.org/abs/2509.23038v1
- Date: Sat, 27 Sep 2025 01:21:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.998017
- Title: GeLoc3r: Enhancing Relative Camera Pose Regression with Geometric Consistency Regularization
- Title(参考訳): GeLoc3r: 幾何学的一貫性規則化による相対カメラポッド回帰の強化
- Authors: Jingxing Li, Yongjae Lee, Deliang Fan,
- Abstract要約: ReLoc3Rは、高速な25msの推論と最先端のレグレッション精度でブレークスルー性能を達成する。
GeLoc3rは、幾何整合正則化によるポーズ回帰手法を強化する、相対カメラポーズ推定の新しいアプローチである。
- 参考スコア(独自算出の注目度): 44.00455492098006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prior ReLoc3R achieves breakthrough performance with fast 25ms inference and state-of-the-art regression accuracy, yet our analysis reveals subtle geometric inconsistencies in its internal representations that prevent reaching the precision ceiling of correspondence-based methods like MASt3R (which require 300ms per pair). In this work, we present GeLoc3r, a novel approach to relative camera pose estimation that enhances pose regression methods through Geometric Consistency Regularization (GCR). GeLoc3r overcomes the speed-accuracy dilemma by training regression networks to produce geometrically consistent poses without inference-time geometric computation. During training, GeLoc3r leverages ground-truth depth to generate dense 3D-2D correspondences, weights them using a FusionTransformer that learns correspondence importance, and computes geometrically-consistent poses via weighted RANSAC. This creates a consistency loss that transfers geometric knowledge into the regression network. Unlike FAR method which requires both regression and geometric solving at inference, GeLoc3r only uses the enhanced regression head at test time, maintaining ReLoc3R's fast speed and approaching MASt3R's high accuracy. On challenging benchmarks, GeLoc3r consistently outperforms ReLoc3R, achieving significant improvements including 40.45% vs. 34.85% AUC@5{\deg} on the CO3Dv2 dataset (16% relative improvement), 68.66% vs. 66.70% AUC@5{\deg} on RealEstate10K, and 50.45% vs. 49.60% on MegaDepth1500. By teaching geometric consistency during training rather than enforcing it at inference, GeLoc3r represents a paradigm shift in how neural networks learn camera geometry, achieving both the speed of regression and the geometric understanding of correspondence methods.
- Abstract(参考訳): ReLoc3Rは、高速25msの推論と最先端のレグレッション精度でブレークスルー性能を達成するが、その内部表現における微妙な幾何学的不整合が明らかとなり、MASt3R(ペアあたり300ms)のような対応型手法の精度天井に到達するのを防いでいる。
本稿では、Geometric Consistency Regularization (GCR)によるポーズ回帰手法を強化する、相対カメラポーズ推定の新しいアプローチであるGeLoc3rを提案する。
GeLoc3rは回帰ネットワークをトレーニングすることで速度精度ジレンマを克服し、推論時幾何計算なしで幾何的に一貫したポーズを生成する。
トレーニング中、GeLoc3rは地上の深度を利用して密度の高い3D-2D対応を生成し、対応性の重要性を学習するFusionTransformerを使って重み付けし、重み付けされたRANSACを介して幾何学的に一貫性のあるポーズを計算する。
これにより、幾何的知識を回帰ネットワークに転送する整合損失が発生する。
推論時に回帰と幾何的解法の両方を必要とするFAR法とは異なり、GeLoc3rはテスト時にのみ強化された回帰ヘッドを使用し、ReLoc3Rの速度を保ち、MASt3Rの高精度に近づく。
挑戦的なベンチマークでは、GeLoc3rは一貫してReLoc3Rを上回り、CO3Dv2データセットで40.45%対34.85%のAUC@5{\deg}(16%の相対的な改善)、RealEstate10Kで68.66%対66.70%のAUC@5{\deg}、MegaDepth1500で50.45%対49.60%の大幅な改善を達成した。
GeLoc3rは、推論時に強制するのではなく、トレーニング中に幾何学的一貫性を教えることによって、ニューラルネットワークがカメラ幾何学を学習する方法のパラダイムシフトを表し、回帰の速度と対応法の幾何学的理解の両方を達成する。
関連論文リスト
- Pseudo Depth Meets Gaussian: A Feed-forward RGB SLAM Baseline [64.42938561167402]
本稿では,3次元ガウス型SLAMとフィードフォワードリカレント予測モジュールを組み合わせたオンライン3次元再構成手法を提案する。
このアプローチは、遅いテスト時間の最適化を高速なネットワーク推論に置き換え、トラッキング速度を大幅に改善する。
提案手法は,最先端のSplaTAMと同等の性能を示しながら,追跡時間を90%以上削減する。
論文 参考訳(メタデータ) (2025-08-06T16:16:58Z) - Dens3R: A Foundation Model for 3D Geometry Prediction [44.13431776180547]
Dens3Rは幾何学的密度予測のための3次元基礎モデルである。
画像対マッチング機能と本質的不変性モデリングを統合することにより、Dens3Rは複数の幾何学的量を正確に回帰する。
論文 参考訳(メタデータ) (2025-07-22T07:22:30Z) - Test3R: Learning to Reconstruct 3D at Test Time [58.0912500917036]
Test3Rは驚くほどシンプルなテストタイム学習技術で、幾何学的精度を大幅に向上させる。
本手法は従来の3次元再構成法や多視点深度推定法よりも優れていた。
論文 参考訳(メタデータ) (2025-06-16T17:56:22Z) - 3D Face Reconstruction Error Decomposed: A Modular Benchmark for Fair and Fast Method Evaluation [30.625439879741847]
M3DFB (Modularized 3D Face Restruction Benchmark) のためのツールキットを提案する。
エラーの基本成分は分離され交換可能であり、それぞれの効果を定量化することができる。
そこで本研究では,メッシュトポロジの不整合性に対して計算効率の良い手法を提案する。
論文 参考訳(メタデータ) (2025-05-23T15:28:43Z) - Speedy MASt3R [68.47052557089631]
MASt3Rは、DUSt3Rを活用して高速な相互マッチング方式を導入することで、画像マッチングを3Dタスクとして再定義する。
高速MASt3Rは、精度を犠牲にすることなく、推論時間(画像ペアあたり198msから91ms)を54%削減する。
この進歩により、リアルタイムな3D理解が可能になり、複合現実ナビゲーションや大規模3Dシーン再構築といったアプリケーションに恩恵をもたらす。
論文 参考訳(メタデータ) (2025-03-13T03:56:22Z) - CDGS: Confidence-Aware Depth Regularization for 3D Gaussian Splatting [5.8678184183132265]
CDGSは3DGSを強化するために開発された信頼性を考慮した深度正規化手法である。
我々は,単眼深度推定のマルチキュー信頼マップと,運動深度からのスパース構造を適応的に調整するために活用する。
本手法は,初期訓練段階における幾何ディテールの保存性を向上し,NVSの品質と幾何精度の両面での競争性能を実現する。
論文 参考訳(メタデータ) (2025-02-20T16:12:13Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - Neural Refinement for Absolute Pose Regression with Feature Synthesis [33.2608395824548]
APR(Absolute Pose Regression)メソッドは、ディープニューラルネットワークを使用して、RGBイメージからカメラのポーズを直接回帰する。
本研究では,暗黙的幾何制約を利用するテスト時間改善パイプラインを提案する。
また、トレーニング中に3次元幾何学的特徴を符号化し、テスト時に高密度な新しいビュー特徴を直接レンダリングしてAPR法を洗練させるニューラル・フィーチャー・シンセサイザー(NeFeS)モデルも導入する。
論文 参考訳(メタデータ) (2023-03-17T16:10:50Z) - Human Body Model Fitting by Learned Gradient Descent [48.79414884222403]
画像に3次元の人体形状を適合させる新しいアルゴリズムを提案する。
このアルゴリズムは高速(約120ms収束)で、データセットに頑健であり、公開評価データセットの最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2020-08-19T14:26:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。