論文の概要: Are Local Features All You Need for Cross-Domain Visual Place
Recognition?
- arxiv url: http://arxiv.org/abs/2304.05887v1
- Date: Wed, 12 Apr 2023 14:46:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 14:44:57.675956
- Title: Are Local Features All You Need for Cross-Domain Visual Place
Recognition?
- Title(参考訳): クロスドメインの視覚的な位置認識に必要なローカル機能は?
- Authors: Giovanni Barbarani, Mohamad Mostafa, Hajali Bayramov, Gabriele
Trivigno, Gabriele Berton, Carlo Masone, Barbara Caputo
- Abstract要約: 視覚的位置認識は、視覚的手がかりのみに基づいて画像の座標を予測することを目的としている。
近年の進歩にもかかわらず、クエリがかなり異なる分布から来るのと同じ場所を認識することは、依然として最先端の検索手法にとって大きなハードルである。
本研究では,空間的検証に基づく手法がこれらの課題に対処できるかどうかを考察する。
- 参考スコア(独自算出の注目度): 13.519413608607781
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Place Recognition is a task that aims to predict the coordinates of an
image (called query) based solely on visual clues. Most commonly, a retrieval
approach is adopted, where the query is matched to the most similar images from
a large database of geotagged photos, using learned global descriptors. Despite
recent advances, recognizing the same place when the query comes from a
significantly different distribution is still a major hurdle for state of the
art retrieval methods. Examples are heavy illumination changes (e.g. night-time
images) or substantial occlusions (e.g. transient objects). In this work we
explore whether re-ranking methods based on spatial verification can tackle
these challenges, following the intuition that local descriptors are inherently
more robust than global features to domain shifts. To this end, we provide a
new, comprehensive benchmark on current state of the art models. We also
introduce two new demanding datasets with night and occluded queries, to be
matched against a city-wide database. Code and datasets are available at
https://github.com/gbarbarani/re-ranking-for-VPR.
- Abstract(参考訳): 視覚的位置認識(Visual Place Recognition)は、視覚的手がかりのみに基づく画像の座標(クエリと呼ばれる)の予測を目的としたタスクである。
最も一般的な検索手法は、学習されたグローバルな記述子を用いて、ジオタグ付きの写真の大きなデータベースから最も類似した画像とクエリをマッチングする。
近年の進歩にもかかわらず、クエリがかなり異なる分布から来るのと同じ場所を認識することは、依然として最先端の検索手法にとって大きなハードルである。
例えば、重い照明変化(夜間画像など)や実質的な閉塞(過渡的な物体など)がある。
本研究では,局所記述子はグローバルな特徴やドメインシフトよりも本質的に堅牢である,という直感に従って,空間的検証に基づく手法の再評価がこれらの課題に対処できるかどうかを検討する。
この目的のために、我々はアートモデルの現在の状況に関する新しい包括的なベンチマークを提供する。
また,市全体のデータベースとマッチングするために,夜間および閉ざされたクエリを用いた2つの新たな要求データセットも導入した。
コードとデータセットはhttps://github.com/gbarbarani/re- rank-for-VPRで公開されている。
関連論文リスト
- Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - Deep Homography Estimation for Visual Place Recognition [49.235432979736395]
本稿では,変換器を用いたディープホモグラフィー推定(DHE)ネットワークを提案する。
バックボーンネットワークによって抽出された濃密な特徴写像を入力とし、高速で学習可能な幾何的検証のためにホモグラフィーに適合する。
ベンチマークデータセットを用いた実験により,本手法はいくつかの最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-02-25T13:22:17Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - EigenPlaces: Training Viewpoint Robust Models for Visual Place
Recognition [22.98403243270106]
EigenPlacesと呼ばれる新しい手法を提案し、異なる視点からの画像に基づいてニューラルネットワークをトレーニングする。
基本的な考え方は、トレーニングデータをクラスタ化して、同じ関心点の異なるビューでモデルを明示的に提示することだ。
文献における最も包括的なデータセットのセットに関する実験を行い、EigenPlacesは、ほとんどのデータセットにおいて、過去の最先端の技術を上回ることができることを示した。
論文 参考訳(メタデータ) (2023-08-21T16:27:31Z) - Yes, we CANN: Constrained Approximate Nearest Neighbors for local
feature-based visual localization [2.915868985330569]
Constrained Approximate Nearest Neighbors (CANN) は、局所的特徴のみを用いて、幾何学と外観空間の両方にわたって k-アネレスト近傍の合同解である。
提案手法は,現在最先端のグローバルな特徴量検索と,局所的な特徴量集計手法を用いたアプローチの両方に優れる。
論文 参考訳(メタデータ) (2023-06-15T10:12:10Z) - $R^{2}$Former: Unified $R$etrieval and $R$eranking Transformer for Place
Recognition [92.56937383283397]
検索と再ランクの両方を扱う統合された場所認識フレームワークを提案する。
提案モジュールは特徴相関,注目値,xy座標を考慮に入れている。
R2$Formerは、主要なVPRデータセットの最先端メソッドを著しく上回る。
論文 参考訳(メタデータ) (2023-04-06T23:19:32Z) - Where We Are and What We're Looking At: Query Based Worldwide Image
Geo-localization Using Hierarchies and Scenes [53.53712888703834]
地理的レベルの異なる関係を利用して、エンドツーエンドのトランスフォーマーベースのアーキテクチャを導入する。
4つの標準ジオローカライゼーションデータセット上で,アートストリートレベルの精度を実現する。
論文 参考訳(メタデータ) (2023-03-07T21:47:58Z) - Cross-Descriptor Visual Localization and Mapping [81.16435356103133]
視覚のローカライゼーションとマッピングは、Mixed Realityとロボティクスシステムの大部分を支える重要な技術である。
特徴表現の連続的な更新を必要とする局所化とマッピングのための3つの新しいシナリオを提案する。
我々のデータ駆動型アプローチは特徴記述子型に非依存であり、計算要求が低く、記述アルゴリズムの数と線形にスケールする。
論文 参考訳(メタデータ) (2020-12-02T18:19:51Z) - VIGOR: Cross-View Image Geo-localization beyond One-to-one Retrieval [19.239311087570318]
クロスビュー画像のジオローカライゼーションは,空中からのGPSタグ付き参照画像とマッチングすることで,ストリートビュー検索画像の位置を決定することを目的としている。
最近の研究は、都市規模データセットの驚くほど高い検索精度を実現している。
我々は,1対1の検索範囲を超えて,画像の地理的局所化を行うための大規模ベンチマークであるVIGORを提案する。
論文 参考訳(メタデータ) (2020-11-24T15:50:54Z) - Benchmarking Image Retrieval for Visual Localization [41.38065116577011]
視覚的ローカライゼーションは、自律運転や拡張現実といったテクノロジーの中核的なコンポーネントである。
これらのタスクには最先端の画像検索アルゴリズムを用いるのが一般的である。
本稿では,複数の視覚的ローカライゼーションタスクにおける画像検索の役割を理解することに焦点を当てる。
論文 参考訳(メタデータ) (2020-11-24T07:59:52Z) - City-Scale Visual Place Recognition with Deep Local Features Based on
Multi-Scale Ordered VLAD Pooling [5.274399407597545]
本稿では,コンテンツに基づく画像検索に基づいて,都市規模で位置認識を行うシステムを提案する。
まず,視覚的位置認識の包括的分析を行い,その課題を概観する。
次に,画像表現ベクトルに空間情報を埋め込むために,畳み込み型ニューラルネットワークアクティベーションを用いた単純なプーリング手法を提案する。
論文 参考訳(メタデータ) (2020-09-19T15:21:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。