論文の概要: Deep Homography Estimation for Visual Place Recognition
- arxiv url: http://arxiv.org/abs/2402.16086v1
- Date: Sun, 25 Feb 2024 13:22:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 15:23:01.030911
- Title: Deep Homography Estimation for Visual Place Recognition
- Title(参考訳): 視覚位置認識のための深部ホモグラフィ推定
- Authors: Feng Lu, Shuting Dong, Lijun Zhang, Bingxi Liu, Xiangyuan Lan, Dongmei
Jiang, Chun Yuan
- Abstract要約: 本稿では,変換器を用いたディープホモグラフィー推定(DHE)ネットワークを提案する。
バックボーンネットワークによって抽出された濃密な特徴写像を入力とし、高速で学習可能な幾何的検証のためにホモグラフィーに適合する。
ベンチマークデータセットを用いた実験により,本手法はいくつかの最先端手法より優れていることが示された。
- 参考スコア(独自算出の注目度): 51.70437924779968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual place recognition (VPR) is a fundamental task for many applications
such as robot localization and augmented reality. Recently, the hierarchical
VPR methods have received considerable attention due to the trade-off between
accuracy and efficiency. They usually first use global features to retrieve the
candidate images, then verify the spatial consistency of matched local features
for re-ranking. However, the latter typically relies on the RANSAC algorithm
for fitting homography, which is time-consuming and non-differentiable. This
makes existing methods compromise to train the network only in global feature
extraction. Here, we propose a transformer-based deep homography estimation
(DHE) network that takes the dense feature map extracted by a backbone network
as input and fits homography for fast and learnable geometric verification.
Moreover, we design a re-projection error of inliers loss to train the DHE
network without additional homography labels, which can also be jointly trained
with the backbone network to help it extract the features that are more
suitable for local matching. Extensive experiments on benchmark datasets show
that our method can outperform several state-of-the-art methods. And it is more
than one order of magnitude faster than the mainstream hierarchical VPR methods
using RANSAC. The code is released at https://github.com/Lu-Feng/DHE-VPR.
- Abstract(参考訳): 視覚的位置認識(VPR)は、ロボットのローカライゼーションや拡張現実など、多くのアプリケーションにとって基本的なタスクである。
近年,精度と効率のトレードオフにより,階層型VPR手法が注目されている。
彼らはまず、まずグローバルな特徴を使って候補画像を取得し、次に一致した局所的な特徴の空間的一貫性を検証する。
しかし、後者は通常、時間消費かつ微分不能なホモグラフィに適合するランサックアルゴリズムに依存している。
これにより、グローバルな特徴抽出のみでネットワークをトレーニングするための既存の手法が妥協される。
本稿では,背骨ネットワークから抽出された高密度特徴写像を入力とし,高速かつ学習可能な幾何的検証に適合するトランスフォーマーに基づく深層ホモグラフィ推定(DHE)ネットワークを提案する。
さらに,新たなホモグラフィラベルを使わずにDHEネットワークをトレーニングするための不整合損失の再投影誤差を設計し,ローカルマッチングに適した特徴を抽出するためにバックボーンネットワークと共同でトレーニングすることもできる。
ベンチマークデータセットに関する広範囲な実験により,本手法がいくつかの最先端手法に勝ることを示した。
また、RANSACを用いた主流階層型VPR法よりも1桁以上高速である。
コードはhttps://github.com/Lu-Feng/DHE-VPRで公開されている。
関連論文リスト
- Vector Field Attention for Deformable Image Registration [9.852055065890479]
変形可能な画像登録は、固定画像と移動画像の間の非線形空間対応を確立する。
既存のディープラーニングベースの手法では、ニューラルネットワークが特徴マップの位置情報をエンコードする必要がある。
本稿では、位置対応の直接検索を可能にすることにより、既存のネットワーク設計の効率を高める新しいフレームワークであるベクトル場注意(VFA)を提案する。
論文 参考訳(メタデータ) (2024-07-14T14:06:58Z) - Collaborative Visual Place Recognition through Federated Learning [5.06570397863116]
視覚的位置認識(VPR)は、画像の位置を検索問題として扱うことで、画像の位置を推定することを目的としている。
VPRはジオタグ付き画像のデータベースを使用し、ディープニューラルネットワークを活用して、各画像からデクリプタと呼ばれるグローバル表現を抽出する。
本研究は,フェデレートラーニング(FL)のレンズを通してVPRの課題を再考し,この適応に関連するいくつかの重要な課題に対処する。
論文 参考訳(メタデータ) (2024-04-20T08:48:37Z) - AANet: Aggregation and Alignment Network with Semi-hard Positive Sample
Mining for Hierarchical Place Recognition [48.043749855085025]
視覚的位置認識(VPR)はロボット工学におけるホットスポットの一つで、視覚情報を用いてロボットの位置を特定する。
本稿では,アグリゲーションモジュールを介して候補を検索するためのグローバルな特徴を抽出できる統一ネットワークを提案する。
また、より堅牢なVPRネットワークをトレーニングするために、適切なハード正のイメージを選択するためのセミハード正のサンプルマイニング(ShPSM)戦略を提案する。
論文 参考訳(メタデータ) (2023-10-08T14:46:11Z) - DETR Doesn't Need Multi-Scale or Locality Design [69.56292005230185]
本稿では,"プレーン"特性を維持できる改良型DETR検出器を提案する。
特定の局所性制約を伴わずに、単一スケールの機能マップとグローバルなクロスアテンション計算を使用する。
マルチスケールな特徴マップと局所性制約の欠如を補うために,2つの単純な技術が平易な設計において驚くほど効果的であることを示す。
論文 参考訳(メタデータ) (2023-08-03T17:59:04Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Deep Convolutional Pooling Transformer for Deepfake Detection [54.10864860009834]
本研究では,局所的・グローバル的に決定的な画像特徴を取り入れた深部畳み込み変換器を提案する。
具体的には,抽出した特徴を充実させ,有効性を高めるために,畳み込みプーリングと再アテンションを適用した。
提案手法は、内部実験と相互データセット実験の両方において、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2022-09-12T15:05:41Z) - MD-CSDNetwork: Multi-Domain Cross Stitched Network for Deepfake
Detection [80.83725644958633]
現在のディープフェイク生成法では、偽画像やビデオの周波数スペクトルに識別的アーティファクトが残されている。
MD-CSDNetwork(MD-CSDNetwork)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T14:11:53Z) - STA-VPR: Spatio-temporal Alignment for Visual Place Recognition [17.212503755962757]
画像間の距離を計測しながら空間領域から局所的な特徴を整列する適応動的時間ウォーピングアルゴリズムを提案する。
時間的アライメントに基づく画像シーケンスマッチングを行うために、局所マッチングDTWアルゴリズムを適用した。
その結果,提案手法はcnnに基づく手法を大幅に改善した。
論文 参考訳(メタデータ) (2021-03-25T03:27:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。