論文の概要: $R^{2}$Former: Unified $R$etrieval and $R$eranking Transformer for Place
Recognition
- arxiv url: http://arxiv.org/abs/2304.03410v1
- Date: Thu, 6 Apr 2023 23:19:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-10 13:20:48.302673
- Title: $R^{2}$Former: Unified $R$etrieval and $R$eranking Transformer for Place
Recognition
- Title(参考訳): $R^{2}$Former: Unified $R$etrieval and $R$e rank Transformer for Place Recognition
- Authors: Sijie Zhu, Linjie Yang, Chen Chen, Mubarak Shah, Xiaohui Shen, Heng
Wang
- Abstract要約: 検索と再ランクの両方を扱う統合された場所認識フレームワークを提案する。
提案モジュールは特徴相関,注目値,xy座標を考慮に入れている。
R2$Formerは、主要なVPRデータセットの最先端メソッドを著しく上回る。
- 参考スコア(独自算出の注目度): 92.56937383283397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Place Recognition (VPR) estimates the location of query images by
matching them with images in a reference database. Conventional methods
generally adopt aggregated CNN features for global retrieval and RANSAC-based
geometric verification for reranking. However, RANSAC only employs geometric
information but ignores other possible information that could be useful for
reranking, e.g. local feature correlations, and attention values. In this
paper, we propose a unified place recognition framework that handles both
retrieval and reranking with a novel transformer model, named $R^{2}$Former.
The proposed reranking module takes feature correlation, attention value, and
xy coordinates into account, and learns to determine whether the image pair is
from the same location. The whole pipeline is end-to-end trainable and the
reranking module alone can also be adopted on other CNN or transformer
backbones as a generic component. Remarkably, $R^{2}$Former significantly
outperforms state-of-the-art methods on major VPR datasets with much less
inference time and memory consumption. It also achieves the state-of-the-art on
the hold-out MSLS challenge set and could serve as a simple yet strong solution
for real-world large-scale applications. Experiments also show vision
transformer tokens are comparable and sometimes better than CNN local features
on local matching. The code is released at
https://github.com/Jeff-Zilence/R2Former.
- Abstract(参考訳): 視覚的位置認識(VPR)は、参照データベース内の画像と照合することで、クエリ画像の位置を推定する。
従来の手法では、グローバル検索やRANSACに基づく幾何検証に集約されたCNN機能を採用している。
しかし、RANSACは幾何学的情報のみを用いるが、局所的特徴相関や注意値など、再ランク付けに役立つ可能性のある他の情報を無視している。
本稿では,新しいトランスモデルである$R^{2}$Formerを用いて,検索と再ランクの両方を扱う統合された位置認識フレームワークを提案する。
提案するリランキングモジュールは,特徴相関,注意値,xy座標を考慮に入れて,画像ペアが同一位置から来ているかどうかを判断する。
パイプライン全体がエンドツーエンドでトレーニング可能で、リカウンドモジュールのみを他のcnnやtransformerバックボーンでジェネリックコンポーネントとして採用することもできる。
注目すべきは、$R^{2}$Formerは、推論時間とメモリ消費をはるかに少なくして、主要なVPRデータセットで最先端のメソッドを著しく上回ることだ。
また、MSLSチャレンジセットの最先端を達成し、現実世界の大規模アプリケーションにとってシンプルだが強力なソリューションとして機能する。
実験によれば、視覚トランスフォーマートークンは、局所マッチングのcnnローカル機能と同等であり、時には同等である。
コードはhttps://github.com/Jeff-Zilence/R2Formerで公開されている。
関連論文リスト
- Deep Homography Estimation for Visual Place Recognition [49.235432979736395]
本稿では,変換器を用いたディープホモグラフィー推定(DHE)ネットワークを提案する。
バックボーンネットワークによって抽出された濃密な特徴写像を入力とし、高速で学習可能な幾何的検証のためにホモグラフィーに適合する。
ベンチマークデータセットを用いた実験により,本手法はいくつかの最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-02-25T13:22:17Z) - Optimal Transport Aggregation for Visual Place Recognition [9.192660643226372]
SALADは,NetVLADの局所的特徴のソフトアサインを最適な輸送問題としてクラスタに再配置する。
SALADでは,機能間クラスタ関係とクラスタ間クラスタ関係の両方を考慮するとともに,非形式的と考えられる特徴を選択的に破棄する'ダストビン'クラスタも導入する。
我々のシングルステージ手法は、パブリックなVPRデータセットの単一ステージベースラインを超えるだけでなく、2段階の手法を超越し、コストを大幅に高めに再ランク付けする。
論文 参考訳(メタデータ) (2023-11-27T15:46:19Z) - AANet: Aggregation and Alignment Network with Semi-hard Positive Sample
Mining for Hierarchical Place Recognition [48.043749855085025]
視覚的位置認識(VPR)はロボット工学におけるホットスポットの一つで、視覚情報を用いてロボットの位置を特定する。
本稿では,アグリゲーションモジュールを介して候補を検索するためのグローバルな特徴を抽出できる統一ネットワークを提案する。
また、より堅牢なVPRネットワークをトレーニングするために、適切なハード正のイメージを選択するためのセミハード正のサンプルマイニング(ShPSM)戦略を提案する。
論文 参考訳(メタデータ) (2023-10-08T14:46:11Z) - Are Local Features All You Need for Cross-Domain Visual Place
Recognition? [13.519413608607781]
視覚的位置認識は、視覚的手がかりのみに基づいて画像の座標を予測することを目的としている。
近年の進歩にもかかわらず、クエリがかなり異なる分布から来るのと同じ場所を認識することは、依然として最先端の検索手法にとって大きなハードルである。
本研究では,空間的検証に基づく手法がこれらの課題に対処できるかどうかを考察する。
論文 参考訳(メタデータ) (2023-04-12T14:46:57Z) - TransGeo: Transformer Is All You Need for Cross-view Image
Geo-localization [81.70547404891099]
クロスビュー画像のジオローカライゼーションのためのCNNに基づく手法は,大域的相関をモデル化できない。
本稿では,これらの制約に対処するためのトランスジェオ (TransGeo) を提案する。
TransGeoは、都市と農村の両方のデータセットで最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-03-31T21:19:41Z) - HAT: Hierarchical Aggregation Transformers for Person Re-identification [87.02828084991062]
我々は,CNNとトランスフォーマーの両方の利点を,高性能な画像ベース人物Re-IDに適用する。
作業は、画像ベースのRe-IDのためのCNNとTransformerの両方の利点を初めて活用する。
論文 参考訳(メタデータ) (2021-07-13T09:34:54Z) - Region Similarity Representation Learning [94.88055458257081]
Region similarity Representation Learning(ReSim)は、ローカリゼーションベースのタスクに対する自己監視型表現学習の新しいアプローチである。
ReSimはローカリゼーションのための地域表現とセマンティックイメージレベルの表現の両方を学びます。
競合するMoCo-v2ベースラインと比較して、ReSimがローカリゼーションと分類性能を大幅に向上させる表現をどのように学習するかを示します。
論文 参考訳(メタデータ) (2021-03-24T00:42:37Z) - Instance-level Image Retrieval using Reranking Transformers [18.304597755595697]
インスタンスレベルの画像検索は、クエリイメージ内のオブジェクトに一致する画像の大規模なデータベースで検索するタスクです。
RRT(Reranking Transformers)を一般的なモデルとして提案し、ローカル機能とグローバル機能の両方を組み込んでマッチングイメージをランク付けします。
RRTは軽量であり、一組のトップマッチング結果の再ランク付けを単一のフォワードパスで行えるように容易に並列化できる。
論文 参考訳(メタデータ) (2021-03-22T23:58:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。