論文の概要: Investigating the Role of Image Retrieval for Visual Localization -- An
exhaustive benchmark
- arxiv url: http://arxiv.org/abs/2205.15761v1
- Date: Tue, 31 May 2022 12:59:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 12:30:56.592358
- Title: Investigating the Role of Image Retrieval for Visual Localization -- An
exhaustive benchmark
- Title(参考訳): ビジュアルローカライゼーションにおける画像検索の役割の検討 - 徹底的なベンチマーク
- Authors: Martin Humenberger and Yohann Cabon and No\'e Pion and Philippe
Weinzaepfel and Donghwan Lee and Nicolas Gu\'erin and Torsten Sattler and
Gabriela Csurka
- Abstract要約: 本稿では,複数の視覚的ローカライゼーションパラダイムにおける画像検索の役割を理解することに焦点を当てる。
本稿では、新しいベンチマーク設定を導入し、複数のデータセットにおける最先端の検索表現を比較した。
これらのツールと奥行き分析を用いて、古典的ランドマーク検索や位置認識タスクにおける検索性能は、ローカライズ性能に限らず、すべてのパラダイムで相関していることを示す。
- 参考スコア(独自算出の注目度): 46.166955777187816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual localization, i.e., camera pose estimation in a known scene, is a core
component of technologies such as autonomous driving and augmented reality.
State-of-the-art localization approaches often rely on image retrieval
techniques for one of two purposes: (1) provide an approximate pose estimate or
(2) determine which parts of the scene are potentially visible in a given query
image. It is common practice to use state-of-the-art image retrieval algorithms
for both of them. These algorithms are often trained for the goal of retrieving
the same landmark under a large range of viewpoint changes which often differs
from the requirements of visual localization. In order to investigate the
consequences for visual localization, this paper focuses on understanding the
role of image retrieval for multiple visual localization paradigms. First, we
introduce a novel benchmark setup and compare state-of-the-art retrieval
representations on multiple datasets using localization performance as metric.
Second, we investigate several definitions of "ground truth" for image
retrieval. Using these definitions as upper bounds for the visual localization
paradigms, we show that there is still sgnificant room for improvement. Third,
using these tools and in-depth analysis, we show that retrieval performance on
classical landmark retrieval or place recognition tasks correlates only for
some but not all paradigms to localization performance. Finally, we analyze the
effects of blur and dynamic scenes in the images. We conclude that there is a
need for retrieval approaches specifically designed for localization paradigms.
Our benchmark and evaluation protocols are available at
https://github.com/naver/kapture-localization.
- Abstract(参考訳): 視覚の定位、すなわち既知のシーンにおけるカメラのポーズ推定は、自動運転や拡張現実といった技術のコアコンポーネントである。
最先端のローカライゼーションアプローチは,(1)近似ポーズ推定,(2)所定のクエリ画像でシーンのどの部分が潜在的に見えるかを決定する,という2つの目的で画像検索技術に依存することが多い。
どちらも最先端の画像検索アルゴリズムを用いるのが一般的である。
これらのアルゴリズムは、しばしば視覚的ローカライゼーションの要求と異なる幅広い視点の変化の下で同じランドマークを取得することを目標に訓練される。
視覚的ローカライゼーションの結果を明らかにするために,複数の視覚的ローカライゼーションパラダイムにおける画像検索の役割を理解することに焦点を当てた。
まず,ローカライズ性能を指標として,複数のデータセットにおける最先端の検索表現を比較する。
次に,画像検索における「根拠真理」の定義について検討する。
これらの定義を視覚的ローカライゼーションのパラダイムの上限として用いることで、改善の余地がまだ残っていることを示す。
第3に、これらのツールと奥行き分析を用いて、古典的ランドマーク検索や位置認識タスクにおける検索性能が、ローカライズ性能の全てのパラダイムにのみ相関していることを示す。
最後に、画像中のぼやけやダイナミックなシーンの影響を分析する。
我々は,ローカライゼーションパラダイムに特化した検索アプローチの必要性を結論づける。
ベンチマークおよび評価プロトコルはhttps://github.com/naver/kapture-localizationで利用可能です。
関連論文リスト
- Breaking the Frame: Image Retrieval by Visual Overlap Prediction [53.17564423756082]
本稿では,隠蔽や複雑なシーンを効果的に扱う新しい視覚的位置認識手法,VOPを提案する。
提案手法は,高コストな特徴検出とマッチングを必要とせず,可視画像区間の識別を可能にする。
論文 参考訳(メタデータ) (2024-06-23T20:00:20Z) - End-to-end learning of keypoint detection and matching for relative pose
estimation [1.8352113484137624]
2つの画像間の相対的なポーズを推定する新しい手法を提案する。
キーポイント検出,説明抽出,マッチング,ロバストなポーズ推定を共同で学習する。
本研究では,既知のポーズを持つ画像データベース内でのクエリ画像の視覚的局在化の手法を示す。
論文 参考訳(メタデータ) (2021-04-02T15:16:17Z) - Telling the What while Pointing the Where: Fine-grained Mouse Trace and
Language Supervision for Improved Image Retrieval [60.24860627782486]
きめ細かい画像検索は、しばしば、探しているコンテンツがどこにあるかを表現する能力を必要とする。
本稿では,ユーザが音声自然言語(“What”)とマウスが空のキャンバス(“where”)にトレースした画像を同時に記述する画像検索装置について述べる。
我々のモデルは、この空間的ガイダンスを考慮に入れ、テキストのみの等価システムと比較して、より正確な検索結果を提供する。
論文 参考訳(メタデータ) (2021-02-09T17:54:34Z) - Cross-Descriptor Visual Localization and Mapping [81.16435356103133]
視覚のローカライゼーションとマッピングは、Mixed Realityとロボティクスシステムの大部分を支える重要な技術である。
特徴表現の連続的な更新を必要とする局所化とマッピングのための3つの新しいシナリオを提案する。
我々のデータ駆動型アプローチは特徴記述子型に非依存であり、計算要求が低く、記述アルゴリズムの数と線形にスケールする。
論文 参考訳(メタデータ) (2020-12-02T18:19:51Z) - Benchmarking Image Retrieval for Visual Localization [41.38065116577011]
視覚的ローカライゼーションは、自律運転や拡張現実といったテクノロジーの中核的なコンポーネントである。
これらのタスクには最先端の画像検索アルゴリズムを用いるのが一般的である。
本稿では,複数の視覚的ローカライゼーションタスクにおける画像検索の役割を理解することに焦点を当てる。
論文 参考訳(メタデータ) (2020-11-24T07:59:52Z) - Geometrically Mappable Image Features [85.81073893916414]
地図内のエージェントの視覚に基づくローカライゼーションは、ロボット工学とコンピュータビジョンにおいて重要な問題である。
本稿では,画像検索を対象とした画像特徴学習手法を提案する。
論文 参考訳(メタデータ) (2020-03-21T15:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。