論文の概要: STA-VPR: Spatio-temporal Alignment for Visual Place Recognition
- arxiv url: http://arxiv.org/abs/2103.13580v1
- Date: Thu, 25 Mar 2021 03:27:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-26 13:27:19.582194
- Title: STA-VPR: Spatio-temporal Alignment for Visual Place Recognition
- Title(参考訳): STA-VPR:視覚的位置認識のための時空間アライメント
- Authors: Feng Lu, Baifan Chen, Xiang-Dong Zhou and Dezhen Song
- Abstract要約: 画像間の距離を計測しながら空間領域から局所的な特徴を整列する適応動的時間ウォーピングアルゴリズムを提案する。
時間的アライメントに基づく画像シーケンスマッチングを行うために、局所マッチングDTWアルゴリズムを適用した。
その結果,提案手法はcnnに基づく手法を大幅に改善した。
- 参考スコア(独自算出の注目度): 17.212503755962757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the methods based on Convolutional Neural Networks (CNNs) have
gained popularity in the field of visual place recognition (VPR). In
particular, the features from the middle layers of CNNs are more robust to
drastic appearance changes than handcrafted features and high-layer features.
Unfortunately, the holistic mid-layer features lack robustness to large
viewpoint changes. Here we split the holistic mid-layer features into local
features, and propose an adaptive dynamic time warping (DTW) algorithm to align
local features from the spatial domain while measuring the distance between two
images. This realizes viewpoint-invariant and condition-invariant place
recognition. Meanwhile, a local matching DTW (LM-DTW) algorithm is applied to
perform image sequence matching based on temporal alignment, which achieves
further improvements and ensures linear time complexity. We perform extensive
experiments on five representative VPR datasets. The results show that the
proposed method significantly improves the CNN-based methods. Moreover, our
method outperforms several state-of-the-art methods while maintaining good
run-time performance. This work provides a novel way to boost the performance
of CNN methods without any re-training for VPR. The code is available at
https://github.com/Lu-Feng/STA-VPR.
- Abstract(参考訳): 近年,視覚的位置認識(VPR)分野において,畳み込みニューラルネットワーク(CNN)に基づく手法が普及している。
特に、cnnの中間層からの機能は、手作りの特徴や高層特徴よりも、劇的な外観変化に対してより堅牢である。
残念ながら、全体的な中間層機能は大きな視点の変更に対する堅牢性に欠ける。
そこで本研究では,局所的な特徴を局所的特徴に分割し,空間領域からの局所的特徴を2つの画像間の距離を計測し,適応動的時間ワープ(DTW)アルゴリズムを提案する。
これにより、視点不変および条件不変の場所認識を実現する。
一方、時間的アライメントに基づく画像シーケンスマッチングを行うために、局所マッチングDTW(LM-DTW)アルゴリズムを適用し、さらなる改善と線形時間複雑性を保証する。
5つの代表的なVPRデータセットについて広範な実験を行った。
その結果,提案手法はcnnに基づく手法を大幅に改善した。
さらに,本手法は,実行時の性能を維持しつつ,いくつかの最先端メソッドよりも優れている。
この作業は、VPRの再トレーニングなしでCNNメソッドのパフォーマンスを向上させる新しい方法を提供する。
コードはhttps://github.com/Lu-Feng/STA-VPRで公開されている。
関連論文リスト
- VLAD-BuFF: Burst-aware Fast Feature Aggregation for Visual Place Recognition [23.173085268845384]
本稿では,VLAD-BuFFを提案する。これは,エンドツーエンドのVPRトレーニングにおいてバースト認識機能を学ぶための,自己相似機能割引機構である。
我々は、VLAD-BuFFが新しい技術状態を設定する9つの公開データセットに対して、我々の手法をベンチマークする。
提案手法は,12倍の局所的特徴量でも高いリコールを維持できるため,リコールを伴わずに高速な特徴集約が可能となる。
論文 参考訳(メタデータ) (2024-09-28T09:44:08Z) - Vector Field Attention for Deformable Image Registration [9.852055065890479]
変形可能な画像登録は、固定画像と移動画像の間の非線形空間対応を確立する。
既存のディープラーニングベースの手法では、ニューラルネットワークが特徴マップの位置情報をエンコードする必要がある。
本稿では、位置対応の直接検索を可能にすることにより、既存のネットワーク設計の効率を高める新しいフレームワークであるベクトル場注意(VFA)を提案する。
論文 参考訳(メタデータ) (2024-07-14T14:06:58Z) - CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Deep Homography Estimation for Visual Place Recognition [49.235432979736395]
本稿では,変換器を用いたディープホモグラフィー推定(DHE)ネットワークを提案する。
バックボーンネットワークによって抽出された濃密な特徴写像を入力とし、高速で学習可能な幾何的検証のためにホモグラフィーに適合する。
ベンチマークデータセットを用いた実験により,本手法はいくつかの最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-02-25T13:22:17Z) - Long-Term Invariant Local Features via Implicit Cross-Domain
Correspondences [79.21515035128832]
我々は、様々なドメイン変更の下で、現在の最先端特徴抽出ネットワークの性能を徹底的に分析する。
我々は、新しいデータ中心方式、Implicit Cross-Domain Correspondences (iCDC)を提案する。
iCDCは複数のニューラル・ラジアンス・フィールドで同じ環境を表し、それぞれが個々の視覚領域の下にシーンを適合させる。
論文 参考訳(メタデータ) (2023-11-06T18:53:01Z) - AANet: Aggregation and Alignment Network with Semi-hard Positive Sample
Mining for Hierarchical Place Recognition [48.043749855085025]
視覚的位置認識(VPR)はロボット工学におけるホットスポットの一つで、視覚情報を用いてロボットの位置を特定する。
本稿では,アグリゲーションモジュールを介して候補を検索するためのグローバルな特徴を抽出できる統一ネットワークを提案する。
また、より堅牢なVPRネットワークをトレーニングするために、適切なハード正のイメージを選択するためのセミハード正のサンプルマイニング(ShPSM)戦略を提案する。
論文 参考訳(メタデータ) (2023-10-08T14:46:11Z) - MFGNet: Dynamic Modality-Aware Filter Generation for RGB-T Tracking [72.65494220685525]
可視データと熱データ間のメッセージ通信を促進するために,新しい動的モダリティ対応フィルタ生成モジュール(MFGNet)を提案する。
我々は、2つの独立ネットワークを持つ動的モダリティ対応フィルタを生成し、その可視フィルタとサーマルフィルタをそれぞれ、対応する入力特徴写像上で動的畳み込み演算を行う。
重閉塞,高速移動,外見による問題に対処するため,新たな方向認識型目標誘導型アテンション機構を活用することで,共同で局所的・グローバル検索を行うことを提案する。
論文 参考訳(メタデータ) (2021-07-22T03:10:51Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。