論文の概要: Fast and Lightweight Scene Regressor for Camera Relocalization
- arxiv url: http://arxiv.org/abs/2212.01830v1
- Date: Sun, 4 Dec 2022 14:41:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 18:35:54.882752
- Title: Fast and Lightweight Scene Regressor for Camera Relocalization
- Title(参考訳): カメラ再局在化のための高速軽量シーンレグレッシャ
- Authors: Thuan B. Bui, Dinh-Tuan Tran, and Joo-Ho Lee
- Abstract要約: プレビルドされた3Dモデルに対して直接カメラのポーズを推定することは、いくつかのアプリケーションにとって違法にコストがかかる可能性がある。
本研究では,シーン座標のマッピングに多層パーセプトロンネットワークのみを必要とする簡易なシーン回帰手法を提案する。
提案手法では,高密度のRGB画像ではなく,スパースディスクリプタを用いてシーン座標を回帰する。
- 参考スコア(独自算出の注目度): 1.6708069984516967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Camera relocalization involving a prior 3D reconstruction plays a crucial
role in many mixed reality and robotics applications. Estimating the camera
pose directly with respect to pre-built 3D models can be prohibitively
expensive for several applications with limited storage and/or communication
bandwidth. Although recent scene and absolute pose regression methods have
become popular for efficient camera localization, most of them are
computation-resource intensive and difficult to obtain a real-time inference
with high accuracy constraints. This study proposes a simple scene regression
method that requires only a multi-layer perceptron network for mapping scene
coordinates to achieve accurate camera pose estimations. The proposed approach
uses sparse descriptors to regress the scene coordinates, instead of a dense
RGB image. The use of sparse features provides several advantages. First, the
proposed regressor network is substantially smaller than those reported in
previous studies. This makes our system highly efficient and scalable. Second,
the pre-built 3D models provide the most reliable and robust 2D-3D matches.
Therefore, learning from them can lead to an awareness of equivalent features
and substantially improve the generalization performance. A detailed analysis
of our approach and extensive evaluations using existing datasets are provided
to support the proposed method. The implementation detail is available at
https://github.com/aislab/feat2map
- Abstract(参考訳): 以前の3D再構成を含むカメラの再局在は、多くの複合現実とロボット工学の応用において重要な役割を果たす。
プリビルドされた3Dモデルに対して直接カメラのポーズを推定することは、ストレージや通信帯域が限られているいくつかのアプリケーションにとって、極めて高価である。
最近のシーンや絶対ポーズ回帰手法は、効率的なカメラローカライズに普及しているが、そのほとんどは計算資源集中型であり、高い精度の制約を持つリアルタイム推論を得るのが困難である。
本研究では,シーン座標をマッピングして正確なカメラポーズ推定を実現するために,多層パーセプトロンネットワークのみを必要とする簡易なシーン回帰手法を提案する。
提案手法では,高密度のRGB画像ではなく,スパースディスクリプタを用いてシーン座標を回帰する。
スパース機能の使用にはいくつかの利点がある。
第一に、提案する回帰器ネットワークは、以前の研究よりかなり小さい。
これにより、システムは極めて効率的でスケーラブルになります。
第二に、プレビルドされた3Dモデルは最も信頼性が高く堅牢な2D-3Dマッチを提供する。
したがって、それらからの学習は同等の機能の認識につながり、一般化性能が大幅に向上する。
提案手法を支援するために,提案手法の詳細な分析と既存データセットを用いた広範な評価を行った。
実装の詳細はhttps://github.com/aislab/feat2mapで確認できる。
関連論文リスト
- No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。
提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:22Z) - SplatLoc: 3D Gaussian Splatting-based Visual Localization for Augmented Reality [50.179377002092416]
より少ないパラメータで高品質なレンダリングが可能な効率的なビジュアルローカライズ手法を提案する。
提案手法は,最先端の暗黙的視覚的ローカライゼーションアプローチに対して,より優れた,あるいは同等なレンダリングとローカライゼーション性能を実現する。
論文 参考訳(メタデータ) (2024-09-21T08:46:16Z) - FaVoR: Features via Voxel Rendering for Camera Relocalization [23.7893950095252]
カメラ再ローカライズ手法は、高密度画像アライメントから、クエリ画像からの直接カメラポーズ回帰まで様々である。
本稿では,世界規模で疎密だが局所的に密集した2次元特徴の3次元表現を活用する新しい手法を提案する。
一連のフレーム上でのランドマークの追跡と三角測量により、追跡中に観察された画像パッチ記述子をレンダリングするために最適化されたスパースボクセルマップを構築する。
論文 参考訳(メタデータ) (2024-09-11T18:58:16Z) - Improved Scene Landmark Detection for Camera Localization [11.56648898250606]
シーンランドマーク検出(SLD)に基づく手法が近年提案されている。
畳み込みニューラルネットワーク(CNN)をトレーニングして、所定の、健全でシーン固有の3Dポイントやランドマークを検出する。
トレーニング中はモデル容量とノイズラベルが不足していたため,精度の差がみられた。
論文 参考訳(メタデータ) (2024-01-31T18:59:12Z) - SACReg: Scene-Agnostic Coordinate Regression for Visual Localization [16.866303169903237]
本稿では,新しいテストシーンで1回トレーニングされた一般化SCRモデルを提案する。
我々のモデルは、シーン座標をネットワーク重みに符号化する代わりに、スパース2Dピクセルのデータベースイメージを3D座標アノテーションに入力する。
画像のデータベース表現とその2D-3Dアノテーションは,局所化性能を損なうことなく,高度に圧縮できることを示す。
論文 参考訳(メタデータ) (2023-07-21T16:56:36Z) - Lazy Visual Localization via Motion Averaging [89.8709956317671]
本研究では,データベースからシーンを再構築することなく,高精度なローカライゼーションを実現することができることを示す。
実験の結果、我々の視覚的ローカライゼーションの提案であるLazyLocは、最先端の構造に基づく手法に対して同等のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-07-19T13:40:45Z) - Deep Camera Pose Regression Using Pseudo-LiDAR [1.5959408994101303]
我々は、奥行きマップを擬似LiDAR信号に変換することが、カメラのローカライゼーションタスクのより良い表現であることを示す。
擬似LiDARを用いて6DOFカメラのポーズを復元する新しいアーキテクチャであるFusionLocを提案する。
論文 参考訳(メタデータ) (2022-02-28T20:30:37Z) - Soft Expectation and Deep Maximization for Image Feature Detection [68.8204255655161]
質問をひっくり返し、まず繰り返し可能な3Dポイントを探し、次に検出器を訓練して画像空間にローカライズする、反復的半教師付き学習プロセスSEDMを提案する。
以上の結果から,sdmを用いてトレーニングした新しいモデルでは,シーン内の下位3dポイントのローカライズが容易になった。
論文 参考訳(メタデータ) (2021-04-21T00:35:32Z) - Back to the Feature: Learning Robust Camera Localization from Pixels to
Pose [114.89389528198738]
画像と3Dモデルから正確な6-DoFのポーズを推定するシーンに依存しないニューラルネットワークPixLocを導入する。
このシステムは、粗いポーズ前の大きな環境でもローカライズできるが、スパース特徴マッチングの精度も向上する。
論文 参考訳(メタデータ) (2021-03-16T17:40:12Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。