論文の概要: A Faster, Lighter and Stronger Deep Learning-Based Approach for Place
Recognition
- arxiv url: http://arxiv.org/abs/2211.14864v1
- Date: Sun, 27 Nov 2022 15:46:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 20:09:16.560763
- Title: A Faster, Lighter and Stronger Deep Learning-Based Approach for Place
Recognition
- Title(参考訳): より高速で軽量で強力な深層学習に基づく位置認識手法
- Authors: Rui Huang, Ze Huang, Songzhi Su
- Abstract要約: より速く、より軽く、より強力なアプローチを提案し、より少ないパラメータでモデルを生成でき、推論段階での時間を短縮できる。
本稿では,RepVG-liteをアーキテクチャのバックボーンネットワークとして設計する。
提案システムは,Patch-NetVLADの14倍,理論的FLOPの6.8倍,特徴抽出と特徴マッチングの21倍,33倍の高速化を実現している。
- 参考スコア(独自算出の注目度): 7.9400442516053475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Place Recognition is an essential component of systems for camera
localization and loop closure detection, and it has attracted widespread
interest in multiple domains such as computer vision, robotics and AR/VR. In
this work, we propose a faster, lighter and stronger approach that can generate
models with fewer parameters and can spend less time in the inference stage. We
designed RepVGG-lite as the backbone network in our architecture, it is more
discriminative than other general networks in the Place Recognition task.
RepVGG-lite has more speed advantages while achieving higher performance. We
extract only one scale patch-level descriptors from global descriptors in the
feature extraction stage. Then we design a trainable feature matcher to exploit
both spatial relationships of the features and their visual appearance, which
is based on the attention mechanism. Comprehensive experiments on challenging
benchmark datasets demonstrate the proposed method outperforming recent other
state-of-the-art learned approaches, and achieving even higher inference speed.
Our system has 14 times less params than Patch-NetVLAD, 6.8 times lower
theoretical FLOPs, and run faster 21 and 33 times in feature extraction and
feature matching. Moreover, the performance of our approach is 0.5\% better
than Patch-NetVLAD in Recall@1. We used subsets of Mapillary Street Level
Sequences dataset to conduct experiments for all other challenging conditions.
- Abstract(参考訳): 視覚的位置認識は、カメラのローカライゼーションとループのクロージャ検出に不可欠なシステムであり、コンピュータビジョン、ロボティクス、AR/VRといった複数の領域に広く関心を集めている。
本研究では,パラメータの少ないモデルを生成することができ,推論に要する時間を短縮できる,高速で軽量で強力な手法を提案する。
当社のアーキテクチャではバックボーンネットワークとしてrevgg-liteを設計しましたが、プレース認識タスクでは他の一般的なネットワークよりも差別的です。
RepVG-liteは、より高い性能を実現しつつ、より高速な利点がある。
機能抽出段階において,グローバルディスクリプタからパッチレベルの記述子を1つだけ抽出する。
次に,注意機構に基づく特徴の空間的関係と視覚的外観の両方を利用するために,学習可能な特徴マッチング器を設計する。
挑戦的なベンチマークデータセットに関する総合的な実験は、提案手法が最近の最先端の学習アプローチより優れており、推論速度がさらに高いことを実証している。
提案システムは,Patch-NetVLADの14倍,理論的FLOPの6.8倍,特徴抽出と特徴マッチングの21倍,33倍の高速化を実現している。
さらに、我々のアプローチのパフォーマンスはRecall@1のPatch-NetVLADよりも0.55%向上しています。
Mapillary Street Level Sequencesデータセットのサブセットを使用して、他のすべての困難な条件に対する実験を行いました。
関連論文リスト
- AANet: Aggregation and Alignment Network with Semi-hard Positive Sample
Mining for Hierarchical Place Recognition [48.043749855085025]
視覚的位置認識(VPR)はロボット工学におけるホットスポットの一つで、視覚情報を用いてロボットの位置を特定する。
本稿では,アグリゲーションモジュールを介して候補を検索するためのグローバルな特徴を抽出できる統一ネットワークを提案する。
また、より堅牢なVPRネットワークをトレーニングするために、適切なハード正のイメージを選択するためのセミハード正のサンプルマイニング(ShPSM)戦略を提案する。
論文 参考訳(メタデータ) (2023-10-08T14:46:11Z) - MixVPR: Feature Mixing for Visual Place Recognition [3.6739949215165164]
視覚的場所認識(VPR)は、モバイルロボティクスと自律運転の重要な部分である。
我々は,事前学習したバックボーンから特徴マップをグローバルな特徴の集合として取り出す,新しい総合的特徴集約技術であるMixVPRを紹介する。
複数の大規模ベンチマークで広範な実験を行い,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-03-03T19:24:03Z) - Tightly Coupled Learning Strategy for Weakly Supervised Hierarchical
Place Recognition [0.09558392439655011]
本稿では,三重項モデルを学習するための密結合学習(TCL)戦略を提案する。
グローバルデクリプタとローカルデクリプタを組み合わせて、共同最適化を行う。
我々の軽量統一モデルは、いくつかの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-02-14T03:20:39Z) - ZARTS: On Zero-order Optimization for Neural Architecture Search [94.41017048659664]
微分可能なアーキテクチャサーチ (DARTS) は、NASの高効率性のため、一般的なワンショットパラダイムである。
この作業はゼロオーダーの最適化に変わり、上記の近似を強制せずに探索するための新しいNASスキームであるZARTSを提案する。
特に、12ベンチマークの結果は、DARTSの性能が低下するZARTSの顕著な堅牢性を検証する。
論文 参考訳(メタデータ) (2021-10-10T09:35:15Z) - Efficient Person Search: An Anchor-Free Approach [86.45858994806471]
パーソンサーチは、クエリーの人物を、リアルで切り刻まれていない画像から、同時にローカライズし、識別することを目的としている。
この目標を達成するために、最先端モデルは通常、Faster R-CNNのような2段階検出器にre-idブランチを追加する。
本研究では,この課題に対処するためのアンカーフリーな手法を提案する。
論文 参考訳(メタデータ) (2021-09-01T07:01:33Z) - Sequential Place Learning: Heuristic-Free High-Performance Long-Term
Place Recognition [24.70946979449572]
学習ベースのCNN+LSTMアーキテクチャを開発し、バックプロパゲーションを通じてトレーニングし、視点および外観不変の場所認識を実現します。
我々のモデルは、新しい最先端パフォーマンス標準を設定しながら、15の古典的手法より優れています。
さらに, SPL は 729 km の経路において, 従来の方法よりも 70 倍高速に展開可能であることを示す。
論文 参考訳(メタデータ) (2021-03-02T22:57:43Z) - GhostSR: Learning Ghost Features for Efficient Image Super-Resolution [49.393251361038025]
畳み込みニューラルネットワーク(CNN)に基づく単一の画像スーパーリゾリューション(SISR)システムは、膨大な計算コストを必要としながら派手なパフォーマンスを実現します。
SISRモデルの冗長な特徴(すなわちゴースト特徴)を生成するためにシフト演算を用いることを提案する。
提案モジュールに埋め込まれた非コンパクトかつ軽量なSISRモデルの両方が,ベースラインと同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-01-21T10:09:47Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z) - Real-time Semantic Segmentation with Fast Attention [94.88466483540692]
本稿では,高解像度画像と映像をリアルタイムにセマンティックセグメンテーションするための新しいアーキテクチャを提案する。
提案したアーキテクチャは我々の空間的注意の速さに依存しており、これは一般的な自己注意機構の単純かつ効率的な修正である。
複数のデータセットに対する結果から,既存の手法に比べて精度と速度が向上し,優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-07T22:37:16Z) - Spatial-Spectral Residual Network for Hyperspectral Image
Super-Resolution [82.1739023587565]
ハイパースペクトル画像超解像のための新しいスペクトル空間残差ネットワーク(SSRNet)を提案する。
提案手法は,2次元畳み込みではなく3次元畳み込みを用いて空間スペクトル情報の探索を効果的に行うことができる。
各ユニットでは空間的・時間的分離可能な3次元畳み込みを用いて空間的・スペクトル的な情報を抽出する。
論文 参考訳(メタデータ) (2020-01-14T03:34:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。