論文の概要: MixVPR: Feature Mixing for Visual Place Recognition
- arxiv url: http://arxiv.org/abs/2303.02190v1
- Date: Fri, 3 Mar 2023 19:24:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 21:11:04.572610
- Title: MixVPR: Feature Mixing for Visual Place Recognition
- Title(参考訳): mixvpr: 視覚位置認識のための機能混合
- Authors: Amar Ali-bey, Brahim Chaib-draa, Philippe Gigu\`ere
- Abstract要約: 視覚的場所認識(VPR)は、モバイルロボティクスと自律運転の重要な部分である。
我々は,事前学習したバックボーンから特徴マップをグローバルな特徴の集合として取り出す,新しい総合的特徴集約技術であるMixVPRを紹介する。
複数の大規模ベンチマークで広範な実験を行い,本手法の有効性を実証する。
- 参考スコア(独自算出の注目度): 3.6739949215165164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Place Recognition (VPR) is a crucial part of mobile robotics and
autonomous driving as well as other computer vision tasks. It refers to the
process of identifying a place depicted in a query image using only computer
vision. At large scale, repetitive structures, weather and illumination changes
pose a real challenge, as appearances can drastically change over time. Along
with tackling these challenges, an efficient VPR technique must also be
practical in real-world scenarios where latency matters. To address this, we
introduce MixVPR, a new holistic feature aggregation technique that takes
feature maps from pre-trained backbones as a set of global features. Then, it
incorporates a global relationship between elements in each feature map in a
cascade of feature mixing, eliminating the need for local or pyramidal
aggregation as done in NetVLAD or TransVPR. We demonstrate the effectiveness of
our technique through extensive experiments on multiple large-scale benchmarks.
Our method outperforms all existing techniques by a large margin while having
less than half the number of parameters compared to CosPlace and NetVLAD. We
achieve a new all-time high recall@1 score of 94.6% on Pitts250k-test, 88.0% on
MapillarySLS, and more importantly, 58.4% on Nordland. Finally, our method
outperforms two-stage retrieval techniques such as Patch-NetVLAD, TransVPR and
SuperGLUE all while being orders of magnitude faster. Our code and trained
models are available at https://github.com/amaralibey/MixVPR.
- Abstract(参考訳): 視覚位置認識(vpr)は、他のコンピュータビジョンタスクと同様に、モバイルロボットと自動運転の重要な部分である。
コンピュータビジョンのみを用いて、クエリ画像に描かれた場所を識別するプロセスを指す。
大規模では、反復的な構造、天気、照明の変化が真の課題となり、外観は時間とともに劇的に変化する。
これらの課題に取り組むと同時に、レイテンシが問題となる現実のシナリオにおいても、効率的なvprテクニックが実践的に必要となる。
そこで本研究では,事前学習したバックボーンから特徴マップをグローバルな特徴の集合として取り出す,新たな包括的特徴集約手法であるMixVPRを紹介する。
次に、各特徴マップ内の要素間のグローバルな関係を特徴混合のカスケードに組み込んで、NetVLADやTransVPRのように局所的あるいはピラミッド的な集約を不要にする。
複数の大規模ベンチマークで広範な実験を行い,本手法の有効性を示す。
提案手法は,CosPlace や NetVLAD に比べてパラメータ数が半分以下でありながら,既存の手法を大きなマージンで上回っている。
我々は,pits250kテストでは94.6%,mapillaryslsでは88.0%,nordlandでは58.4%という,新記録のhigh recall@1スコアを達成した。
最後に,本手法はpatch-netvlad,transvpr,superglueなどの2段階検索技術よりも桁違いに高速である。
私たちのコードとトレーニングされたモデルは、https://github.com/amaralibey/mixvprで利用可能です。
関連論文リスト
- CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Deep Homography Estimation for Visual Place Recognition [49.235432979736395]
本稿では,変換器を用いたディープホモグラフィー推定(DHE)ネットワークを提案する。
バックボーンネットワークによって抽出された濃密な特徴写像を入力とし、高速で学習可能な幾何的検証のためにホモグラフィーに適合する。
ベンチマークデータセットを用いた実験により,本手法はいくつかの最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-02-25T13:22:17Z) - Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition [72.35438297011176]
視覚的位置認識のための事前学習モデル(VPR)のシームレスな適応を実現する新しい手法を提案する。
具体的には、地域を識別するための有意義なランドマークに焦点を当てたグローバルな特徴とローカルな特徴の両方を得るために、ハイブリッド適応法を設計する。
実験結果から,本手法はトレーニングデータやトレーニング時間が少なく,最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-22T12:55:01Z) - AANet: Aggregation and Alignment Network with Semi-hard Positive Sample
Mining for Hierarchical Place Recognition [48.043749855085025]
視覚的位置認識(VPR)はロボット工学におけるホットスポットの一つで、視覚情報を用いてロボットの位置を特定する。
本稿では,アグリゲーションモジュールを介して候補を検索するためのグローバルな特徴を抽出できる統一ネットワークを提案する。
また、より堅牢なVPRネットワークをトレーニングするために、適切なハード正のイメージを選択するためのセミハード正のサンプルマイニング(ShPSM)戦略を提案する。
論文 参考訳(メタデータ) (2023-10-08T14:46:11Z) - ClusVPR: Efficient Visual Place Recognition with Clustering-based
Weighted Transformer [13.0858576267115]
ClusVPRは重複する領域における冗長な情報の特定の問題と、小さなオブジェクトの表現に対処する新しいアプローチである。
ClusVPRはClustering-based weighted Transformer Network (CWTNet)と呼ばれるユニークなパラダイムを導入した
また,パラメータ数を大幅に削減し,モデル効率を向上させる最適化VLAD層を導入する。
論文 参考訳(メタデータ) (2023-10-06T09:01:15Z) - A-MuSIC: An Adaptive Ensemble System For Visual Place Recognition In
Changing Environments [22.58641358408613]
視覚的位置認識(VPR)は、ロボットナビゲーションとローカライゼーションシステムにおいて不可欠な要素である。
すべての環境条件において、単一のVPR技術が優れているわけではない。
A-MuSIC(Adaptive Multi-Self Identification and Correction)と呼ばれる適応型VPRシステム
A-MuSICは、テストされたすべてのベンチマークデータセット間で最先端のVPRパフォーマンスにマッチまたは打ち勝つ。
論文 参考訳(メタデータ) (2023-03-24T19:25:22Z) - DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition [62.95223898214866]
我々は,視覚変換器の有効性を探究し,参加する受容領域の計算複雑性とサイズとのトレードオフを追求する。
ピラミッドアーキテクチャを用いて,MSDAブロックを低レベルに積み重ねたマルチスケールDilated Transformer (DilateFormer) と,高レベルにグローバルなマルチヘッド自己保持ブロックを構築する。
実験の結果,DilateFormerは様々な視覚タスクで最先端のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-02-03T14:59:31Z) - A Faster, Lighter and Stronger Deep Learning-Based Approach for Place
Recognition [7.9400442516053475]
より速く、より軽く、より強力なアプローチを提案し、より少ないパラメータでモデルを生成でき、推論段階での時間を短縮できる。
本稿では,RepVG-liteをアーキテクチャのバックボーンネットワークとして設計する。
提案システムは,Patch-NetVLADの14倍,理論的FLOPの6.8倍,特徴抽出と特徴マッチングの21倍,33倍の高速化を実現している。
論文 参考訳(メタデータ) (2022-11-27T15:46:53Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。