論文の概要: Scene-agnostic Pose Regression for Visual Localization
- arxiv url: http://arxiv.org/abs/2503.19543v1
- Date: Tue, 25 Mar 2025 10:58:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:55:19.337177
- Title: Scene-agnostic Pose Regression for Visual Localization
- Title(参考訳): 視覚的局所化のためのシーン非依存的姿勢回帰
- Authors: Junwei Zheng, Ruiping Liu, Yufan Chen, Zhenfang Chen, Kailun Yang, Jiaming Zhang, Rainer Stiefelhagen,
- Abstract要約: SPR(Scene-Agnostic Pose Regression)と呼ばれる新しいタスクを導入し、フレキシブルな方法で正確なポーズ回帰を実現する。
360SPRと360Locの両方のデータセットの未知のシーンでは、APR、RPR、VOを一貫して上回ります。
- 参考スコア(独自算出の注目度): 38.653251516665804
- License:
- Abstract: Absolute Pose Regression (APR) predicts 6D camera poses but lacks the adaptability to unknown environments without retraining, while Relative Pose Regression (RPR) generalizes better yet requires a large image retrieval database. Visual Odometry (VO) generalizes well in unseen environments but suffers from accumulated error in open trajectories. To address this dilemma, we introduce a new task, Scene-agnostic Pose Regression (SPR), which can achieve accurate pose regression in a flexible way while eliminating the need for retraining or databases. To benchmark SPR, we created a large-scale dataset, 360SPR, with over 200K photorealistic panoramas, 3.6M pinhole images and camera poses in 270 scenes at three different sensor heights. Furthermore, a SPR-Mamba model is initially proposed to address SPR in a dual-branch manner. Extensive experiments and studies demonstrate the effectiveness of our SPR paradigm, dataset, and model. In the unknown scenes of both 360SPR and 360Loc datasets, our method consistently outperforms APR, RPR and VO. The dataset and code are available at https://junweizheng93.github.io/publications/SPR/SPR.html.
- Abstract(参考訳): Absolute Pose Regression (APR)は6Dカメラのポーズを予測するが、リトレーニングなしで未知の環境への適応性に欠ける。
ビジュアルオドメトリー(VO)は、目に見えない環境ではよく一般化するが、オープンな軌跡における累積誤差に悩まされる。
このジレンマに対処するため、我々はSPR(Scene-Agnostic Pose Regression)という新しいタスクを導入しました。
SPRをベンチマークするために、大規模なデータセットである360SPRを作成し、200万枚のフォトリアリスティックパノラマ、360万枚のピンホール画像とカメラのポーズを3つの異なるセンサー高さで270のシーンで作成しました。
さらに、SPR-Mambaモデルは、当初二重ブランチ方式でSPRに対処するために提案されている。
大規模な実験と研究により、SPRパラダイム、データセット、モデルの有効性が実証された。
360SPRと360Locの両方のデータセットの未知のシーンでは、APR、RPR、VOを一貫して上回ります。
データセットとコードはhttps://junweizheng93.github.io/publications/SPR/SPR.htmlで公開されている。
関連論文リスト
- SRPose: Two-view Relative Pose Estimation with Sparse Keypoints [51.49105161103385]
SRPoseは、カメラ・トゥ・ワールドおよびオブジェクト・トゥ・カメラシナリオにおける2ビュー相対ポーズ推定のためのスパースキーポイントベースのフレームワークである。
精度と速度の点で最先端の手法と比較して、競争力や優れた性能を達成する。
さまざまな画像サイズやカメラ固有の機能に対して堅牢であり、低コンピューティングリソースでデプロイすることができる。
論文 参考訳(メタデータ) (2024-07-11T05:46:35Z) - Map-Relative Pose Regression for Visual Re-Localization [20.89982939633994]
本稿では,ポーズ回帰,マップ相対ポーズ回帰 (marepo) に対する新しいアプローチを提案する。
我々は、シーン固有の地図表現に対して、ポーズ予測がシーンマップに対して相対的であるように、ポーズ回帰器を条件とする。
提案手法は,屋内と屋外の2つの公開データセットにおいて,従来のポーズ回帰手法よりはるかに優れている。
論文 参考訳(メタデータ) (2024-04-15T15:53:23Z) - Cameras as Rays: Pose Estimation via Ray Diffusion [54.098613859015856]
カメラのポーズを推定することは3D再構成の基本的な課題であり、まばらにサンプリングされたビューを考えると依然として困難である。
本稿では,カメラを光束として扱うカメラポーズの分散表現を提案する。
提案手法は回帰法と拡散法の両方で,CO3Dのカメラポーズ推定における最先端性能を示す。
論文 参考訳(メタデータ) (2024-02-22T18:59:56Z) - PF-LRM: Pose-Free Large Reconstruction Model for Joint Pose and Shape
Prediction [77.89935657608926]
画像から3Dオブジェクトを再構成するためのPF-LRM(Pose-Free Large Restruction Model)を提案する。
PF-LRMは1つのA100 GPU上で1.3秒で相対カメラのポーズを同時に推定する。
論文 参考訳(メタデータ) (2023-11-20T18:57:55Z) - KS-APR: Keyframe Selection for Robust Absolute Pose Regression [2.541264438930729]
Markerless Mobile Augmented Reality (AR)は、特定の2Dや3Dオブジェクトを使わずに、物理的な世界でデジタルコンテンツを固定することを目的としている。
エンドツーエンドの機械学習ソリューションは、単一の単眼画像からデバイスのポーズを推測する。
APR法は、トレーニングセットから遠すぎる入力画像に対して重大な不正確性をもたらす傾向がある。
本稿では,推定ポーズの信頼性を最小限のオーバーヘッドで評価するパイプラインKS-APRを紹介する。
論文 参考訳(メタデータ) (2023-08-10T09:32:20Z) - Learning to Estimate 6DoF Pose from Limited Data: A Few-Shot,
Generalizable Approach using RGB Images [60.0898989456276]
本稿では,数ショットの6DoFポーズ推定のためのCas6Dという新しいフレームワークを提案する。
極めて少数の設定で対象物検出の偽陽性に対処するために,本フレームワークでは,自己教師付き事前学習型ViTを用いて,ロバストな特徴表現を学習する。
LINEMODとGenMOPデータセットの実験結果は、Cas6Dが32ショット設定で最先端の手法を9.2%、精度3.8%(Proj-5)で上回ることを示した。
論文 参考訳(メタデータ) (2023-06-13T07:45:42Z) - PoseMatcher: One-shot 6D Object Pose Estimation by Deep Feature Matching [51.142988196855484]
本稿では,PoseMatcherを提案する。
3ビューシステムに基づくオブジェクトと画像のマッチングのための新しいトレーニングパイプラインを作成します。
PoseMatcherは、画像とポイントクラウドの異なる入力モダリティに対応できるように、IO-Layerを導入します。
論文 参考訳(メタデータ) (2023-04-03T21:14:59Z) - Learning to Localize in Unseen Scenes with Relative Pose Regressors [5.672132510411465]
相対的なポーズ回帰器(RPR)は、相対的な翻訳と回転をポーズラベル付き参照に推定することで、カメラをローカライズする。
しかし実際には、RPRのパフォーマンスは目に見えない場面で著しく劣化している。
我々は、結合、投影、注意操作(Transformer)によるアグリゲーションを実装し、結果として生じる潜在コードから相対的なポーズパラメータを回帰することを学ぶ。
現状のRCPと比較すると、室内および屋外のベンチマークにおいて、表示シーンにおける競合性能を維持しながら、見えない環境において、より優れたローカライズが期待できる。
論文 参考訳(メタデータ) (2023-03-05T17:12:50Z) - Benchmarking Visual-Inertial Deep Multimodal Fusion for Relative Pose
Regression and Odometry-aided Absolute Pose Regression [6.557612703872671]
視覚慣性ローカライゼーションは、仮想現実、自動運転車、航空機などのコンピュータビジョンやロボティクスアプリケーションにおいて重要な問題である。
本研究では,ポーズグラフの最適化とアテンションネットワークに基づく深層マルチモーダル融合の評価を行う。
本稿では,APR-RPRタスクの改善と,航空機やハンドヘルド機器のRPR-RPRタスクの改善について述べる。
論文 参考訳(メタデータ) (2022-08-01T15:05:26Z) - Visual Camera Re-Localization Using Graph Neural Networks and Relative
Pose Supervision [31.947525258453584]
視覚再局在化とは、単一の画像を入力として、予め記録された環境に対してカメラの位置と向きを推定する手段である。
提案手法は特別な仮定をほとんど行わず,訓練やテストでは極めて軽量である。
標準の屋内(7-Scenes)と屋外(Cambridge Landmarks)のカメラ再ローカリゼーションベンチマークに対するアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2021-04-06T14:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。