論文の概要: AANet: Aggregation and Alignment Network with Semi-hard Positive Sample
Mining for Hierarchical Place Recognition
- arxiv url: http://arxiv.org/abs/2310.05184v1
- Date: Sun, 8 Oct 2023 14:46:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 11:44:52.580945
- Title: AANet: Aggregation and Alignment Network with Semi-hard Positive Sample
Mining for Hierarchical Place Recognition
- Title(参考訳): AANet:階層的位置認識のための半ハード正のサンプルマイニングによるアグリゲーションとアライメントネットワーク
- Authors: Feng Lu, Lijun Zhang, Shuting Dong, Baifan Chen and Chun Yuan
- Abstract要約: 視覚的位置認識(VPR)はロボット工学におけるホットスポットの一つで、視覚情報を用いてロボットの位置を特定する。
本稿では,アグリゲーションモジュールを介して候補を検索するためのグローバルな特徴を抽出できる統一ネットワークを提案する。
また、より堅牢なVPRネットワークをトレーニングするために、適切なハード正のイメージを選択するためのセミハード正のサンプルマイニング(ShPSM)戦略を提案する。
- 参考スコア(独自算出の注目度): 48.043749855085025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual place recognition (VPR) is one of the research hotspots in robotics,
which uses visual information to locate robots. Recently, the hierarchical
two-stage VPR methods have become popular in this field due to the trade-off
between accuracy and efficiency. These methods retrieve the top-k candidate
images using the global features in the first stage, then re-rank the
candidates by matching the local features in the second stage. However, they
usually require additional algorithms (e.g. RANSAC) for geometric consistency
verification in re-ranking, which is time-consuming. Here we propose a
Dynamically Aligning Local Features (DALF) algorithm to align the local
features under spatial constraints. It is significantly more efficient than the
methods that need geometric consistency verification. We present a unified
network capable of extracting global features for retrieving candidates via an
aggregation module and aligning local features for re-ranking via the DALF
alignment module. We call this network AANet. Meanwhile, many works use the
simplest positive samples in triplet for weakly supervised training, which
limits the ability of the network to recognize harder positive pairs. To
address this issue, we propose a Semi-hard Positive Sample Mining (ShPSM)
strategy to select appropriate hard positive images for training more robust
VPR networks. Extensive experiments on four benchmark VPR datasets show that
the proposed AANet can outperform several state-of-the-art methods with less
time consumption. The code is released at https://github.com/Lu-Feng/AANet.
- Abstract(参考訳): 視覚位置認識(visual place recognition, vpr)は、視覚情報を用いてロボットを探索するロボット研究のホットスポットの一つである。
近年,精度と効率のトレードオフにより,階層型2段VPR法が普及している。
これらの手法は,第1段のグローバル特徴を用いてトップk候補画像を取得し,第2段のローカル特徴とマッチングして候補を再ランクする。
しかし、それらは通常、時間を要する再ランクの幾何的整合性検証のために追加のアルゴリズム(RANSACなど)を必要とする。
本稿では,局所的特徴を空間的制約下で整列する動的局所特徴量(DALF)アルゴリズムを提案する。
幾何整合性検証を必要とする方法よりもはるかに効率的である。
本稿では,アグリゲーションモジュールを介して候補を検索するためのグローバルな特徴を抽出し,DALFアライメントモジュールを介して局所的な特徴を整理するネットワークを提案する。
私たちはこのネットワークをAANetと呼ぶ。
一方、多くの研究は三重項の最も単純な正のサンプルを用いて弱教師付きトレーニングを行い、ネットワークがより強い正のペアを認識する能力を制限する。
この問題に対処するため、より堅牢なVPRネットワークをトレーニングするために、適切なハードな正のイメージを選択するためのセミハード正のサンプルマイニング(ShPSM)戦略を提案する。
4つのベンチマークVPRデータセットの大規模な実験により、提案されたAANetは、より少ない時間消費で、最先端のいくつかのメソッドより優れていることが示された。
コードはhttps://github.com/Lu-Feng/AANetで公開されている。
関連論文リスト
- Deep Homography Estimation for Visual Place Recognition [49.235432979736395]
本稿では,変換器を用いたディープホモグラフィー推定(DHE)ネットワークを提案する。
バックボーンネットワークによって抽出された濃密な特徴写像を入力とし、高速で学習可能な幾何的検証のためにホモグラフィーに適合する。
ベンチマークデータセットを用いた実験により,本手法はいくつかの最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-02-25T13:22:17Z) - VICRegL: Self-Supervised Learning of Local Visual Features [34.92750644059916]
本稿では,局所的な特徴とグローバルな特徴の学習における基本的なトレードオフについて考察する。
グローバルな特徴とローカルな特徴を同時に学習するVICRegLと呼ばれる新しい手法が提案されている。
線形分類とセグメンテーション伝達タスクにおいて高い性能を示す。
論文 参考訳(メタデータ) (2022-10-04T12:54:25Z) - Self-Supervised Visual Place Recognition by Mining Temporal and Feature
Neighborhoods [17.852415436033436]
時空間近傍と学習可能な特徴近傍を用いて未知空間近傍を探索するtextitTF-VPR という新しいフレームワークを提案する。
提案手法は,(1)データ拡張による表現学習,(2)現在の特徴空間を含む正の集合拡大,(3)幾何的検証による正の集合収縮を交互に行う。
論文 参考訳(メタデータ) (2022-08-19T12:59:46Z) - Tightly Coupled Learning Strategy for Weakly Supervised Hierarchical
Place Recognition [0.09558392439655011]
本稿では,三重項モデルを学習するための密結合学習(TCL)戦略を提案する。
グローバルデクリプタとローカルデクリプタを組み合わせて、共同最適化を行う。
我々の軽量統一モデルは、いくつかの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-02-14T03:20:39Z) - Efficient Person Search: An Anchor-Free Approach [86.45858994806471]
パーソンサーチは、クエリーの人物を、リアルで切り刻まれていない画像から、同時にローカライズし、識別することを目的としている。
この目標を達成するために、最先端モデルは通常、Faster R-CNNのような2段階検出器にre-idブランチを追加する。
本研究では,この課題に対処するためのアンカーフリーな手法を提案する。
論文 参考訳(メタデータ) (2021-09-01T07:01:33Z) - MFGNet: Dynamic Modality-Aware Filter Generation for RGB-T Tracking [72.65494220685525]
可視データと熱データ間のメッセージ通信を促進するために,新しい動的モダリティ対応フィルタ生成モジュール(MFGNet)を提案する。
我々は、2つの独立ネットワークを持つ動的モダリティ対応フィルタを生成し、その可視フィルタとサーマルフィルタをそれぞれ、対応する入力特徴写像上で動的畳み込み演算を行う。
重閉塞,高速移動,外見による問題に対処するため,新たな方向認識型目標誘導型アテンション機構を活用することで,共同で局所的・グローバル検索を行うことを提案する。
論文 参考訳(メタデータ) (2021-07-22T03:10:51Z) - STA-VPR: Spatio-temporal Alignment for Visual Place Recognition [17.212503755962757]
画像間の距離を計測しながら空間領域から局所的な特徴を整列する適応動的時間ウォーピングアルゴリズムを提案する。
時間的アライメントに基づく画像シーケンスマッチングを行うために、局所マッチングDTWアルゴリズムを適用した。
その結果,提案手法はcnnに基づく手法を大幅に改善した。
論文 参考訳(メタデータ) (2021-03-25T03:27:42Z) - Decoupled and Memory-Reinforced Networks: Towards Effective Feature
Learning for One-Step Person Search [65.51181219410763]
歩行者検出と識別サブタスクを1つのネットワークで処理するワンステップ方式を開発しました。
現在のワンステップアプローチには2つの大きな課題があります。
本稿では,これらの問題を解決するために,分離メモリ強化ネットワーク(DMRNet)を提案する。
論文 参考訳(メタデータ) (2021-02-22T06:19:45Z) - MRDet: A Multi-Head Network for Accurate Oriented Object Detection in
Aerial Images [51.227489316673484]
水平アンカーから変換された指向性提案を生成するために、任意指向領域提案ネットワーク(AO-RPN)を提案する。
正確なバウンディングボックスを得るために,検出タスクを複数のサブタスクに分離し,マルチヘッドネットワークを提案する。
各ヘッドは、対応するタスクに最適な特徴を学習するために特別に設計されており、ネットワークがオブジェクトを正確に検出することができる。
論文 参考訳(メタデータ) (2020-12-24T06:36:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。