論文の概要: Benchmarking Image Retrieval for Visual Localization
- arxiv url: http://arxiv.org/abs/2011.11946v2
- Date: Tue, 1 Dec 2020 07:19:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 12:35:10.161496
- Title: Benchmarking Image Retrieval for Visual Localization
- Title(参考訳): 視覚定位のためのベンチマーク画像検索
- Authors: No\'e Pion, Martin Humenberger, Gabriela Csurka, Yohann Cabon, Torsten
Sattler
- Abstract要約: 視覚的ローカライゼーションは、自律運転や拡張現実といったテクノロジーの中核的なコンポーネントである。
これらのタスクには最先端の画像検索アルゴリズムを用いるのが一般的である。
本稿では,複数の視覚的ローカライゼーションタスクにおける画像検索の役割を理解することに焦点を当てる。
- 参考スコア(独自算出の注目度): 41.38065116577011
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual localization, i.e., camera pose estimation in a known scene, is a core
component of technologies such as autonomous driving and augmented reality.
State-of-the-art localization approaches often rely on image retrieval
techniques for one of two tasks: (1) provide an approximate pose estimate or
(2) determine which parts of the scene are potentially visible in a given query
image. It is common practice to use state-of-the-art image retrieval algorithms
for these tasks. These algorithms are often trained for the goal of retrieving
the same landmark under a large range of viewpoint changes. However, robustness
to viewpoint changes is not necessarily desirable in the context of visual
localization. This paper focuses on understanding the role of image retrieval
for multiple visual localization tasks. We introduce a benchmark setup and
compare state-of-the-art retrieval representations on multiple datasets. We
show that retrieval performance on classical landmark retrieval/recognition
tasks correlates only for some but not all tasks to localization performance.
This indicates a need for retrieval approaches specifically designed for
localization tasks. Our benchmark and evaluation protocols are available at
https://github.com/naver/kapture-localization.
- Abstract(参考訳): 視覚の定位、すなわち既知のシーンにおけるカメラのポーズ推定は、自動運転や拡張現実といった技術のコアコンポーネントである。
最先端のローカライゼーション手法は,(1)近似ポーズ推定,(2)所定のクエリ画像でシーンのどの部分が見えるかを決定するという2つのタスクのうちの1つに対して,画像検索技術に依存することが多い。
これらのタスクには最先端の画像検索アルゴリズムを用いるのが一般的である。
これらのアルゴリズムはしばしば、様々な視点の変化の下で同じランドマークを取得するために訓練される。
しかし,視点変化に対するロバスト性は,視覚局所化の文脈において必ずしも望ましいものではない。
本稿では,複数の視覚局所化タスクにおける画像検索の役割について考察する。
ベンチマーク設定を導入し、複数のデータセットの最先端検索表現を比較する。
本研究では,古典的ランドマーク検索/認識タスクにおける検索性能が,ローカライズ性能にのみ関連していることを示す。
これは、特にローカライズタスク用に設計された検索アプローチの必要性を示している。
ベンチマークおよび評価プロトコルはhttps://github.com/naver/kapture-localizationで利用可能です。
関連論文リスト
- Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - Revisit Anything: Visual Place Recognition via Image Segment Retrieval [8.544326445217369]
既存の視覚的場所認識パイプラインは、"全体"イメージをエンコードし、マッチを検索する。
画像全体の代わりに「画像セグメント」をエンコードして検索することで、この問題に対処する。
これらの部分的表現を検索すると、通常の画像ベース検索よりも認識リコールが大幅に高くなることを示す。
論文 参考訳(メタデータ) (2024-09-26T16:49:58Z) - Are Local Features All You Need for Cross-Domain Visual Place
Recognition? [13.519413608607781]
視覚的位置認識は、視覚的手がかりのみに基づいて画像の座標を予測することを目的としている。
近年の進歩にもかかわらず、クエリがかなり異なる分布から来るのと同じ場所を認識することは、依然として最先端の検索手法にとって大きなハードルである。
本研究では,空間的検証に基づく手法がこれらの課題に対処できるかどうかを考察する。
論文 参考訳(メタデータ) (2023-04-12T14:46:57Z) - Visual Localization via Few-Shot Scene Region Classification [84.34083435501094]
ビジュアル(再)ローカライゼーションは、既知のシーンでキャプチャされたクエリイメージの6-DoFカメラのポーズを推定する問題に対処する。
画像画素からシーン座標へのマッピングを記憶することで,この問題を解決する。
シーン領域の分類手法を提案する。
論文 参考訳(メタデータ) (2022-08-14T22:39:02Z) - Investigating the Role of Image Retrieval for Visual Localization -- An
exhaustive benchmark [46.166955777187816]
本稿では,複数の視覚的ローカライゼーションパラダイムにおける画像検索の役割を理解することに焦点を当てる。
本稿では、新しいベンチマーク設定を導入し、複数のデータセットにおける最先端の検索表現を比較した。
これらのツールと奥行き分析を用いて、古典的ランドマーク検索や位置認識タスクにおける検索性能は、ローカライズ性能に限らず、すべてのパラダイムで相関していることを示す。
論文 参考訳(メタデータ) (2022-05-31T12:59:01Z) - Deep Metric Learning for Ground Images [4.864819846886142]
我々は,現在のロボットの位置決めについて事前の知識がない初期位置決めタスクに対処する。
本稿では,クエリ画像に最もよく似た参照画像を取得するディープメトリック学習手法を提案する。
地上画像の既存の画像検索手法とは対照的に,提案手法はリコール性能が大幅に向上し,最先端のテクスチャベースローカライゼーション手法のローカライズ性能が向上する。
論文 参考訳(メタデータ) (2021-09-03T14:43:59Z) - Cross-Descriptor Visual Localization and Mapping [81.16435356103133]
視覚のローカライゼーションとマッピングは、Mixed Realityとロボティクスシステムの大部分を支える重要な技術である。
特徴表現の連続的な更新を必要とする局所化とマッピングのための3つの新しいシナリオを提案する。
我々のデータ駆動型アプローチは特徴記述子型に非依存であり、計算要求が低く、記述アルゴリズムの数と線形にスケールする。
論文 参考訳(メタデータ) (2020-12-02T18:19:51Z) - Geometrically Mappable Image Features [85.81073893916414]
地図内のエージェントの視覚に基づくローカライゼーションは、ロボット工学とコンピュータビジョンにおいて重要な問題である。
本稿では,画像検索を対象とした画像特徴学習手法を提案する。
論文 参考訳(メタデータ) (2020-03-21T15:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。