論文の概要: Reloc3r: Large-Scale Training of Relative Camera Pose Regression for Generalizable, Fast, and Accurate Visual Localization
- arxiv url: http://arxiv.org/abs/2412.08376v1
- Date: Wed, 11 Dec 2024 13:36:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:02:18.761960
- Title: Reloc3r: Large-Scale Training of Relative Camera Pose Regression for Generalizable, Fast, and Accurate Visual Localization
- Title(参考訳): Reloc3r: 一般化可能、高速、高精度な視像定位のための相対カメラポッド回帰の大規模訓練
- Authors: Siyan Dong, Shuzhe Wang, Shaohui Liu, Lulu Cai, Qingnan Fan, Juho Kannala, Yanchao Yang,
- Abstract要約: 視覚的ローカライゼーションは、ポーズ画像のデータベースに対して、クエリ画像のカメラのポーズを決定することを目的としている。
カメラのポーズを直接回帰するディープニューラルネットワークは、高速な推論能力のために人気を集めている。
textbfReloc3rは、シンプルだが効果的な視覚的ローカライゼーションフレームワークである。
- 参考スコア(独自算出の注目度): 25.772574727405825
- License:
- Abstract: Visual localization aims to determine the camera pose of a query image relative to a database of posed images. In recent years, deep neural networks that directly regress camera poses have gained popularity due to their fast inference capabilities. However, existing methods struggle to either generalize well to new scenes or provide accurate camera pose estimates. To address these issues, we present \textbf{Reloc3r}, a simple yet effective visual localization framework. It consists of an elegantly designed relative pose regression network, and a minimalist motion averaging module for absolute pose estimation. Trained on approximately 8 million posed image pairs, Reloc3r achieves surprisingly good performance and generalization ability. We conduct extensive experiments on 6 public datasets, consistently demonstrating the effectiveness and efficiency of the proposed method. It provides high-quality camera pose estimates in real time and generalizes to novel scenes. Code, weights, and data at: \url{https://github.com/ffrivera0/reloc3r}.
- Abstract(参考訳): 視覚的ローカライゼーションは、ポーズ画像のデータベースに対して、クエリ画像のカメラのポーズを決定することを目的としている。
近年、カメラのポーズを直接後退させるディープニューラルネットワークは、高速な推論能力のために人気を集めている。
しかし、既存の手法では、新しいシーンをうまく一般化するか、正確なカメラポーズ推定を提供するのに苦労している。
これらの問題に対処するために、簡単なが効果的な視覚的ローカライゼーションフレームワークである \textbf{Reloc3r} を提示する。
エレガントに設計された相対的なポーズ回帰ネットワークと、絶対的なポーズ推定のための最小限のモーション平均化モジュールで構成されている。
約800万枚の画像ペアでトレーニングされたReloc3rは、驚くほど優れたパフォーマンスと一般化能力を実現している。
提案手法の有効性と効率性を一貫して実証し,6つの公開データセットについて広範な実験を行った。
高品質のカメラポーズをリアルタイムで推定し、新しいシーンに一般化する。
code, weights, and data at: \url{https://github.com/ffrivera0/reloc3r}
関連論文リスト
- FaVoR: Features via Voxel Rendering for Camera Relocalization [23.7893950095252]
カメラ再ローカライズ手法は、高密度画像アライメントから、クエリ画像からの直接カメラポーズ回帰まで様々である。
本稿では,世界規模で疎密だが局所的に密集した2次元特徴の3次元表現を活用する新しい手法を提案する。
一連のフレーム上でのランドマークの追跡と三角測量により、追跡中に観察された画像パッチ記述子をレンダリングするために最適化されたスパースボクセルマップを構築する。
論文 参考訳(メタデータ) (2024-09-11T18:58:16Z) - SRPose: Two-view Relative Pose Estimation with Sparse Keypoints [51.49105161103385]
SRPoseは、カメラ・トゥ・ワールドおよびオブジェクト・トゥ・カメラシナリオにおける2ビュー相対ポーズ推定のためのスパースキーポイントベースのフレームワークである。
精度と速度の点で最先端の手法と比較して、競争力や優れた性能を達成する。
さまざまな画像サイズやカメラ固有の機能に対して堅牢であり、低コンピューティングリソースでデプロイすることができる。
論文 参考訳(メタデータ) (2024-07-11T05:46:35Z) - Cameras as Rays: Pose Estimation via Ray Diffusion [54.098613859015856]
カメラのポーズを推定することは3D再構成の基本的な課題であり、まばらにサンプリングされたビューを考えると依然として困難である。
本稿では,カメラを光束として扱うカメラポーズの分散表現を提案する。
提案手法は回帰法と拡散法の両方で,CO3Dのカメラポーズ推定における最先端性能を示す。
論文 参考訳(メタデータ) (2024-02-22T18:59:56Z) - Learning Robust Multi-Scale Representation for Neural Radiance Fields
from Unposed Images [65.41966114373373]
コンピュータビジョンにおけるニューラルイメージベースのレンダリング問題に対する改善された解決策を提案する。
提案手法は,テスト時に新たな視点からシーンのリアルなイメージを合成することができる。
論文 参考訳(メタデータ) (2023-11-08T08:18:23Z) - Learning to Estimate 6DoF Pose from Limited Data: A Few-Shot,
Generalizable Approach using RGB Images [60.0898989456276]
本稿では,数ショットの6DoFポーズ推定のためのCas6Dという新しいフレームワークを提案する。
極めて少数の設定で対象物検出の偽陽性に対処するために,本フレームワークでは,自己教師付き事前学習型ViTを用いて,ロバストな特徴表現を学習する。
LINEMODとGenMOPデータセットの実験結果は、Cas6Dが32ショット設定で最先端の手法を9.2%、精度3.8%(Proj-5)で上回ることを示した。
論文 参考訳(メタデータ) (2023-06-13T07:45:42Z) - PoseMatcher: One-shot 6D Object Pose Estimation by Deep Feature Matching [51.142988196855484]
本稿では,PoseMatcherを提案する。
3ビューシステムに基づくオブジェクトと画像のマッチングのための新しいトレーニングパイプラインを作成します。
PoseMatcherは、画像とポイントクラウドの異なる入力モダリティに対応できるように、IO-Layerを導入します。
論文 参考訳(メタデータ) (2023-04-03T21:14:59Z) - NEWTON: Neural View-Centric Mapping for On-the-Fly Large-Scale SLAM [51.21564182169607]
Newtonは、リアルタイム観測に基づいて動的にニューラルネットワークを構築するビュー中心のマッピング手法である。
本手法は,複数のニューラルネットワークを用いてシーンを表現することで,ループクロージャとシーン境界更新を用いたカメラポーズ更新を可能にする。
実験の結果,既存の世界中心型ニューラルネットワークSLAMシステムよりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-03-23T20:22:01Z) - Fast and Lightweight Scene Regressor for Camera Relocalization [1.6708069984516967]
プレビルドされた3Dモデルに対して直接カメラのポーズを推定することは、いくつかのアプリケーションにとって違法にコストがかかる可能性がある。
本研究では,シーン座標のマッピングに多層パーセプトロンネットワークのみを必要とする簡易なシーン回帰手法を提案する。
提案手法では,高密度のRGB画像ではなく,スパースディスクリプタを用いてシーン座標を回帰する。
論文 参考訳(メタデータ) (2022-12-04T14:41:20Z) - SparsePose: Sparse-View Camera Pose Regression and Refinement [32.74890928398753]
ワイドベースライン画像のスパースセット(10以下)が与えられた正確なカメラポーズを復元するためのスパースポーズを提案する。
この方法は、初期カメラのポーズを復元し、大規模なオブジェクトのデータセットをトレーニングした後、繰り返し洗練することを学ぶ。
また,物体の5-9画像のみを用いて高忠実度3次元再構成のためのパイプラインを実証した。
論文 参考訳(メタデータ) (2022-11-29T05:16:07Z) - ImPosIng: Implicit Pose Encoding for Efficient Camera Pose Estimation [2.6808541153140077]
暗黙の詩。
(ImPosing)はイメージとカメラのポーズを2つの別々のニューラルネットワークで共通の潜在表現に埋め込む。
階層的な方法で潜在空間を通して候補を評価することにより、カメラの位置と向きを直接回帰するのではなく、洗練する。
論文 参考訳(メタデータ) (2022-05-05T13:33:25Z) - Visual Camera Re-Localization Using Graph Neural Networks and Relative
Pose Supervision [31.947525258453584]
視覚再局在化とは、単一の画像を入力として、予め記録された環境に対してカメラの位置と向きを推定する手段である。
提案手法は特別な仮定をほとんど行わず,訓練やテストでは極めて軽量である。
標準の屋内(7-Scenes)と屋外(Cambridge Landmarks)のカメラ再ローカリゼーションベンチマークに対するアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2021-04-06T14:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。