論文の概要: A Guide to Structureless Visual Localization
- arxiv url: http://arxiv.org/abs/2504.17636v1
- Date: Thu, 24 Apr 2025 15:08:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.425849
- Title: A Guide to Structureless Visual Localization
- Title(参考訳): 構造のない視覚的ローカライゼーションへのガイド
- Authors: Vojtech Panek, Qunjie Zhou, Yaqing Ding, Sérgio Agostinho, Zuzana Kukelova, Torsten Sattler, Laura Leal-Taixé,
- Abstract要約: 既知のシーンにおけるクエリ画像のカメラポーズを推定する方法は、自動運転車や拡張現実/複合現実システムなど、多くのアプリケーションの中核的なコンポーネントである。
最先端のビジュアルローカライゼーションアルゴリズムは、シーンの3Dモデルを格納し、カメラポーズ推定モデルにおけるクエリ画像と3Dポイント間の2D-3D対応を利用する。
本論文は、私たちの知る限り、初めて包括的な議論を行い、構造化されていない手法の比較を行うものである。
- 参考スコア(独自算出の注目度): 63.41481414949785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual localization algorithms, i.e., methods that estimate the camera pose of a query image in a known scene, are core components of many applications, including self-driving cars and augmented / mixed reality systems. State-of-the-art visual localization algorithms are structure-based, i.e., they store a 3D model of the scene and use 2D-3D correspondences between the query image and 3D points in the model for camera pose estimation. While such approaches are highly accurate, they are also rather inflexible when it comes to adjusting the underlying 3D model after changes in the scene. Structureless localization approaches represent the scene as a database of images with known poses and thus offer a much more flexible representation that can be easily updated by adding or removing images. Although there is a large amount of literature on structure-based approaches, there is significantly less work on structureless methods. Hence, this paper is dedicated to providing the, to the best of our knowledge, first comprehensive discussion and comparison of structureless methods. Extensive experiments show that approaches that use a higher degree of classical geometric reasoning generally achieve higher pose accuracy. In particular, approaches based on classical absolute or semi-generalized relative pose estimation outperform very recent methods based on pose regression by a wide margin. Compared with state-of-the-art structure-based approaches, the flexibility of structureless methods comes at the cost of (slightly) lower pose accuracy, indicating an interesting direction for future work.
- Abstract(参考訳): ビジュアルローカライゼーションアルゴリズム、すなわち、既知のシーンにおけるクエリ画像のカメラポーズを推定する手法は、自動運転車や拡張現実/複合現実システムなど、多くのアプリケーションの中核的なコンポーネントである。
最先端のビジュアルローカライゼーションアルゴリズムは、シーンの3Dモデルを格納し、カメラポーズ推定モデルにおけるクエリ画像と3Dポイント間の2D-3D対応を利用する。
このようなアプローチは非常に正確ですが、シーンの変化の後、基礎となる3Dモデルを調整することに関しても、かなり柔軟です。
構造のないローカライゼーションアプローチは、シーンを既知のポーズを持つイメージのデータベースとして表現し、画像の追加や削除によって簡単に更新できる、より柔軟な表現を提供する。
構造に基づくアプローチに関する文献は多数存在するが、構造のない手法に関する研究は著しく少ない。
そこで本論文は,我々の知識を最大限に活用し,まず総合的な議論を行い,構造のない手法の比較を行う。
広範な実験により、古典幾何学的推論の度合いが高いアプローチは、一般的により高いポーズ精度を達成することが示されている。
特に、古典的な絶対的あるいは半一般化された相対的ポーズ推定に基づくアプローチは、広いマージンによるポーズ回帰に基づく非常に最近の手法よりも優れている。
最先端の構造に基づくアプローチと比較すると、構造のない手法の柔軟性は(わずかに)低いポーズ精度を犠牲にしており、将来の作業にとって興味深い方向を示している。
関連論文リスト
- Multiview Image-Based Localization [2.594420805049218]
本稿では、IR方式のように、画像の特徴のみをデータベースに格納するハイブリッド手法を示す。
3Dの手法のように、潜伏した3Dの再構築に頼っているが、3Dのシーンの再構築は維持していない。
提案手法では,7ScenesとCambridge Landmarksのデータセットのパフォーマンス向上に加えて,最先端技術と比較して,タイミングとメモリフットプリントの向上が図られている。
論文 参考訳(メタデータ) (2025-03-30T20:00:31Z) - FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views [93.6881532277553]
FLAREは、高品質カメラのポーズと3次元幾何を、補正されていないスパースビュー画像から推定するために設計されたフィードフォワードモデルである。
本ソリューションでは,3次元構造を2次元画像平面にマッピングする上で,カメラポーズが重要なブリッジとして機能するケースケード学習パラダイムを特徴とする。
論文 参考訳(メタデータ) (2025-02-17T18:54:05Z) - Combining Absolute and Semi-Generalized Relative Poses for Visual Localization [39.2464667533733]
最先端のローカライゼーションアプローチでは、クエリ画像中のピクセルとシーン内の3Dポイントの2D-3Dマッチングを使用してポーズ推定を行う。
対照的に、構造のない手法は2D-2Dマッチングに依存しており、3Dシーンモデルを必要としない。
両戦略を組み合わせることで,複数の現実的なシナリオにおけるローカライズ性能が向上することを示す。
論文 参考訳(メタデータ) (2024-09-21T23:55:42Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - FvOR: Robust Joint Shape and Pose Optimization for Few-view Object
Reconstruction [37.81077373162092]
数枚の画像から正確な3Dオブジェクトモデルを再構築することは、コンピュータビジョンにおいて難しい問題である。
FvORは、ノイズの多い入力ポーズを持つ数枚の画像から正確な3Dモデルを予測する学習ベースのオブジェクト再構成手法である。
論文 参考訳(メタデータ) (2022-05-16T15:39:27Z) - ImPosIng: Implicit Pose Encoding for Efficient Camera Pose Estimation [2.6808541153140077]
暗黙の詩。
(ImPosing)はイメージとカメラのポーズを2つの別々のニューラルネットワークで共通の潜在表現に埋め込む。
階層的な方法で潜在空間を通して候補を評価することにより、カメラの位置と向きを直接回帰するのではなく、洗練する。
論文 参考訳(メタデータ) (2022-05-05T13:33:25Z) - Back to the Feature: Learning Robust Camera Localization from Pixels to
Pose [114.89389528198738]
画像と3Dモデルから正確な6-DoFのポーズを推定するシーンに依存しないニューラルネットワークPixLocを導入する。
このシステムは、粗いポーズ前の大きな環境でもローカライズできるが、スパース特徴マッチングの精度も向上する。
論文 参考訳(メタデータ) (2021-03-16T17:40:12Z) - GDRNPP: A Geometry-guided and Fully Learning-based Object Pose Estimator [51.89441403642665]
剛体物体の6次元ポーズ推定はコンピュータビジョンにおける長年の課題である。
近年、ディープラーニングの出現は、信頼できる6Dポーズを予測するための畳み込みニューラルネットワーク(CNN)の可能性を明らかにしている。
本稿では,完全学習型オブジェクトポーズ推定器を提案する。
論文 参考訳(メタデータ) (2021-02-24T09:11:31Z) - Vid2Curve: Simultaneous Camera Motion Estimation and Thin Structure
Reconstruction from an RGB Video [90.93141123721713]
ワイヤーフレーム彫刻、フェンス、ケーブル、電力線、木の枝などの細い構造は現実世界では一般的である。
従来の画像ベースや深度ベースの再構築手法を用いて3Dデジタルモデルを入手することは極めて困難である。
ハンドヘルドカメラで撮影したカラービデオから,カメラの動きを同時に推定し,複雑な3次元薄膜構造の形状を高品質に再構成する手法を提案する。
論文 参考訳(メタデータ) (2020-05-07T10:39:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。