論文の概要: Close, But Not There: Boosting Geographic Distance Sensitivity in Visual Place Recognition
- arxiv url: http://arxiv.org/abs/2407.02422v1
- Date: Tue, 2 Jul 2024 16:49:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 14:36:57.132186
- Title: Close, But Not There: Boosting Geographic Distance Sensitivity in Visual Place Recognition
- Title(参考訳): 近づいたが、そうではない: 視覚的位置認識における地理的距離感を高める
- Authors: Sergio Izquierdo, Javier Civera,
- Abstract要約: 我々は、現在のVPR埋め込みの地理的距離感度の制限が、トップk検索を誤ってソートする確率が高いことを定式化する。
我々は,視覚的に類似した画像のグラフから斜めをサンプリングすることにより,正および負の例を選択する新たなマイニング戦略であるCliqueMiningを提案する。
提案手法は,VPR埋め込みの感度を極小範囲で向上させ,関連するベンチマークの精度を著しく向上させる。
- 参考スコア(独自算出の注目度): 9.192660643226372
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Place Recognition (VPR) plays a critical role in many localization and mapping pipelines. It consists of retrieving the closest sample to a query image, in a certain embedding space, from a database of geotagged references. The image embedding is learned to effectively describe a place despite variations in visual appearance, viewpoint, and geometric changes. In this work, we formulate how limitations in the Geographic Distance Sensitivity of current VPR embeddings result in a high probability of incorrectly sorting the top-k retrievals, negatively impacting the recall. In order to address this issue in single-stage VPR, we propose a novel mining strategy, CliqueMining, that selects positive and negative examples by sampling cliques from a graph of visually similar images. Our approach boosts the sensitivity of VPR embeddings at small distance ranges, significantly improving the state of the art on relevant benchmarks. In particular, we raise recall@1 from 75% to 82% in MSLS Challenge, and from 76% to 90% in Nordland. Models and code are available at https://github.com/serizba/cliquemining.
- Abstract(参考訳): 視覚的位置認識(VPR)は多くのローカライゼーションとマッピングパイプラインにおいて重要な役割を果たす。
それは、ジオタグ付き参照のデータベースから、ある埋め込み空間において、クエリイメージに最も近いサンプルを取得することで構成される。
画像埋め込みは、視覚的外観、視点、幾何学的変化が異なるにもかかわらず、効果的に場所を記述するために学習される。
本研究では,現在のVPR埋め込みにおける地理的距離感性の限界が,トップk検索を誤ってソートする確率が高く,リコールに悪影響を及ぼすことを示す。
単一ステージのVPRでこの問題に対処するために,視覚的に類似した画像のグラフから斜めをサンプリングすることにより,正および負の例を選択する新たなマイニング戦略であるCliqueMiningを提案する。
提案手法は,VPR埋め込みの感度を極小範囲で向上させ,関連するベンチマークの最先端性を大幅に向上させる。
特に、リコール@1をMSLS Challengeで75%から82%、北欧で76%から90%に引き上げます。
モデルとコードはhttps://github.com/serizba/cliquemining.comで入手できる。
関連論文リスト
- Breaking the Frame: Visual Place Recognition by Overlap Prediction [53.17564423756082]
本稿では,重なり合う予測に基づく新しい視覚的位置認識手法 VOP を提案する。
VOPは、Vision Transformerのバックボーンを使用してパッチレベルの埋め込みを取得することで、コビジュアブルなイメージセクションを進める。
提案手法では,データベース画像の重複点の評価に投票機構を用いる。
論文 参考訳(メタデータ) (2024-06-23T20:00:20Z) - Visual place recognition for aerial imagery: A survey [3.122408196953972]
航空画像とその視覚的ローカライゼーションへの直接的応用は、多くのロボティクスおよびコンピュータビジョンタスクにとって重要な問題である。
グローバル・ナビゲーション・サテライト・システムズ(GNSS、Global Navigation Satellite Systems)は、航空の局地化問題を解決するための標準標準のソリューションである。
視覚的なジオローカライゼーションは、実現可能な代替手段として浮上している。
論文 参考訳(メタデータ) (2024-06-02T22:40:05Z) - NYC-Indoor-VPR: A Long-Term Indoor Visual Place Recognition Dataset with Semi-Automatic Annotation [7.037667953803237]
本稿では、ニューヨーク市内の13の異なる混雑したシーンから収集された36,000枚以上の画像のユニークで豊富なコレクションであるNYC-Indoor-VPRデータセットを紹介する。
VPRのための基礎的真理を確立するために,各画像の位置情報を計算する半自動アノテーション手法を提案する。
提案手法は,ビデオのペアを入力とし,一致した画像のペアと推定された相対位置を出力する。
論文 参考訳(メタデータ) (2024-03-31T00:20:53Z) - CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Deep Homography Estimation for Visual Place Recognition [49.235432979736395]
本稿では,変換器を用いたディープホモグラフィー推定(DHE)ネットワークを提案する。
バックボーンネットワークによって抽出された濃密な特徴写像を入力とし、高速で学習可能な幾何的検証のためにホモグラフィーに適合する。
ベンチマークデータセットを用いた実験により,本手法はいくつかの最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-02-25T13:22:17Z) - CorrMatch: Label Propagation via Correlation Matching for
Semi-Supervised Semantic Segmentation [73.89509052503222]
本稿では、CorrMatchと呼ばれる、単純だが実行可能な半教師付きセマンティックセマンティックセマンティックセマンティクス手法を提案する。
相関写像は、同一カテゴリのクラスタリングピクセルを容易に実現できるだけでなく、良好な形状情報も含んでいることを観察する。
我々は,高信頼画素を拡大し,さらに掘り出すために,画素の対の類似性をモデル化して画素伝搬を行う。
そして、相関地図から抽出した正確なクラス非依存マスクを用いて、領域伝搬を行い、擬似ラベルを強化する。
論文 参考訳(メタデータ) (2023-06-07T10:02:29Z) - CoPR: Towards Accurate Visual Localization With Continuous
Place-descriptor Regression [2.7393821783237184]
ビジュアルプレース認識(VPR)は、ジオタグ付き参照画像のマップから最も類似した参照画像を取得することにより、クエリ画像のカメラ位置を推定する。
VPRの参照は、地図内のスパースポーズでのみ利用可能であり、最大到達可能なローカライゼーション精度の上限を強制する。
本研究では,地図の高密度化とローカライズ精度の向上を図るために,CoPR(Continuous Place-Descriptor Regression)を提案する。
論文 参考訳(メタデータ) (2023-04-14T23:17:44Z) - Are Local Features All You Need for Cross-Domain Visual Place
Recognition? [13.519413608607781]
視覚的位置認識は、視覚的手がかりのみに基づいて画像の座標を予測することを目的としている。
近年の進歩にもかかわらず、クエリがかなり異なる分布から来るのと同じ場所を認識することは、依然として最先端の検索手法にとって大きなハードルである。
本研究では,空間的検証に基づく手法がこれらの課題に対処できるかどうかを考察する。
論文 参考訳(メタデータ) (2023-04-12T14:46:57Z) - $R^{2}$Former: Unified $R$etrieval and $R$eranking Transformer for Place
Recognition [92.56937383283397]
検索と再ランクの両方を扱う統合された場所認識フレームワークを提案する。
提案モジュールは特徴相関,注目値,xy座標を考慮に入れている。
R2$Formerは、主要なVPRデータセットの最先端メソッドを著しく上回る。
論文 参考訳(メタデータ) (2023-04-06T23:19:32Z) - BEVPlace: Learning LiDAR-based Place Recognition using Bird's Eye View
Images [20.30997801125592]
位置認識における異なる表現の可能性、すなわち鳥の視線(BEV)画像について検討する。
BEV画像上で訓練された単純なVGGNetは、わずかな視点変化のシーンにおける最先端の場所認識手法と同等のパフォーマンスを達成する。
そこで我々は,クエリクラウドの位置を推定し,位置認識の利用を拡大する手法を開発した。
論文 参考訳(メタデータ) (2023-02-28T05:37:45Z) - With a Little Help from My Friends: Nearest-Neighbor Contrastive
Learning of Visual Representations [87.72779294717267]
対比損失で最も近い隣り合わせを正として使用すると、ImageNet分類でパフォーマンスが大幅に向上します。
提案手法が複雑なデータ拡張に依存しないことを実証的に証明する。
論文 参考訳(メタデータ) (2021-04-29T17:56:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。