論文の概要: Investigating the Role of Image Retrieval for Visual Localization -- An
exhaustive benchmark
- arxiv url: http://arxiv.org/abs/2205.15761v1
- Date: Tue, 31 May 2022 12:59:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 12:30:56.592358
- Title: Investigating the Role of Image Retrieval for Visual Localization -- An
exhaustive benchmark
- Title(参考訳): ビジュアルローカライゼーションにおける画像検索の役割の検討 - 徹底的なベンチマーク
- Authors: Martin Humenberger and Yohann Cabon and No\'e Pion and Philippe
Weinzaepfel and Donghwan Lee and Nicolas Gu\'erin and Torsten Sattler and
Gabriela Csurka
- Abstract要約: 本稿では,複数の視覚的ローカライゼーションパラダイムにおける画像検索の役割を理解することに焦点を当てる。
本稿では、新しいベンチマーク設定を導入し、複数のデータセットにおける最先端の検索表現を比較した。
これらのツールと奥行き分析を用いて、古典的ランドマーク検索や位置認識タスクにおける検索性能は、ローカライズ性能に限らず、すべてのパラダイムで相関していることを示す。
- 参考スコア(独自算出の注目度): 46.166955777187816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual localization, i.e., camera pose estimation in a known scene, is a core
component of technologies such as autonomous driving and augmented reality.
State-of-the-art localization approaches often rely on image retrieval
techniques for one of two purposes: (1) provide an approximate pose estimate or
(2) determine which parts of the scene are potentially visible in a given query
image. It is common practice to use state-of-the-art image retrieval algorithms
for both of them. These algorithms are often trained for the goal of retrieving
the same landmark under a large range of viewpoint changes which often differs
from the requirements of visual localization. In order to investigate the
consequences for visual localization, this paper focuses on understanding the
role of image retrieval for multiple visual localization paradigms. First, we
introduce a novel benchmark setup and compare state-of-the-art retrieval
representations on multiple datasets using localization performance as metric.
Second, we investigate several definitions of "ground truth" for image
retrieval. Using these definitions as upper bounds for the visual localization
paradigms, we show that there is still sgnificant room for improvement. Third,
using these tools and in-depth analysis, we show that retrieval performance on
classical landmark retrieval or place recognition tasks correlates only for
some but not all paradigms to localization performance. Finally, we analyze the
effects of blur and dynamic scenes in the images. We conclude that there is a
need for retrieval approaches specifically designed for localization paradigms.
Our benchmark and evaluation protocols are available at
https://github.com/naver/kapture-localization.
- Abstract(参考訳): 視覚の定位、すなわち既知のシーンにおけるカメラのポーズ推定は、自動運転や拡張現実といった技術のコアコンポーネントである。
最先端のローカライゼーションアプローチは,(1)近似ポーズ推定,(2)所定のクエリ画像でシーンのどの部分が潜在的に見えるかを決定する,という2つの目的で画像検索技術に依存することが多い。
どちらも最先端の画像検索アルゴリズムを用いるのが一般的である。
これらのアルゴリズムは、しばしば視覚的ローカライゼーションの要求と異なる幅広い視点の変化の下で同じランドマークを取得することを目標に訓練される。
視覚的ローカライゼーションの結果を明らかにするために,複数の視覚的ローカライゼーションパラダイムにおける画像検索の役割を理解することに焦点を当てた。
まず,ローカライズ性能を指標として,複数のデータセットにおける最先端の検索表現を比較する。
次に,画像検索における「根拠真理」の定義について検討する。
これらの定義を視覚的ローカライゼーションのパラダイムの上限として用いることで、改善の余地がまだ残っていることを示す。
第3に、これらのツールと奥行き分析を用いて、古典的ランドマーク検索や位置認識タスクにおける検索性能が、ローカライズ性能の全てのパラダイムにのみ相関していることを示す。
最後に、画像中のぼやけやダイナミックなシーンの影響を分析する。
我々は,ローカライゼーションパラダイムに特化した検索アプローチの必要性を結論づける。
ベンチマークおよび評価プロトコルはhttps://github.com/naver/kapture-localizationで利用可能です。
関連論文リスト
- Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - Revisit Anything: Visual Place Recognition via Image Segment Retrieval [8.544326445217369]
既存の視覚的場所認識パイプラインは、"全体"イメージをエンコードし、マッチを検索する。
画像全体の代わりに「画像セグメント」をエンコードして検索することで、この問題に対処する。
これらの部分的表現を検索すると、通常の画像ベース検索よりも認識リコールが大幅に高くなることを示す。
論文 参考訳(メタデータ) (2024-09-26T16:49:58Z) - Breaking the Frame: Visual Place Recognition by Overlap Prediction [53.17564423756082]
本稿では,重なり合う予測に基づく新しい視覚的位置認識手法 VOP を提案する。
VOPは、Vision Transformerのバックボーンを使用してパッチレベルの埋め込みを取得することで、コビジュアブルなイメージセクションを進める。
提案手法では,データベース画像の重複点の評価に投票機構を用いる。
論文 参考訳(メタデータ) (2024-06-23T20:00:20Z) - End-to-end learning of keypoint detection and matching for relative pose
estimation [1.8352113484137624]
2つの画像間の相対的なポーズを推定する新しい手法を提案する。
キーポイント検出,説明抽出,マッチング,ロバストなポーズ推定を共同で学習する。
本研究では,既知のポーズを持つ画像データベース内でのクエリ画像の視覚的局在化の手法を示す。
論文 参考訳(メタデータ) (2021-04-02T15:16:17Z) - Cross-Descriptor Visual Localization and Mapping [81.16435356103133]
視覚のローカライゼーションとマッピングは、Mixed Realityとロボティクスシステムの大部分を支える重要な技術である。
特徴表現の連続的な更新を必要とする局所化とマッピングのための3つの新しいシナリオを提案する。
我々のデータ駆動型アプローチは特徴記述子型に非依存であり、計算要求が低く、記述アルゴリズムの数と線形にスケールする。
論文 参考訳(メタデータ) (2020-12-02T18:19:51Z) - Benchmarking Image Retrieval for Visual Localization [41.38065116577011]
視覚的ローカライゼーションは、自律運転や拡張現実といったテクノロジーの中核的なコンポーネントである。
これらのタスクには最先端の画像検索アルゴリズムを用いるのが一般的である。
本稿では,複数の視覚的ローカライゼーションタスクにおける画像検索の役割を理解することに焦点を当てる。
論文 参考訳(メタデータ) (2020-11-24T07:59:52Z) - Geometrically Mappable Image Features [85.81073893916414]
地図内のエージェントの視覚に基づくローカライゼーションは、ロボット工学とコンピュータビジョンにおいて重要な問題である。
本稿では,画像検索を対象とした画像特徴学習手法を提案する。
論文 参考訳(メタデータ) (2020-03-21T15:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。