論文の概要: Patch-NetVLAD: Multi-Scale Fusion of Locally-Global Descriptors for
Place Recognition
- arxiv url: http://arxiv.org/abs/2103.01486v1
- Date: Tue, 2 Mar 2021 05:53:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 16:28:08.959842
- Title: Patch-NetVLAD: Multi-Scale Fusion of Locally-Global Descriptors for
Place Recognition
- Title(参考訳): Patch-NetVLAD:場所認識のためのローカルグローバルディスクリプタのマルチスケール融合
- Authors: Stephen Hausler, Sourav Garg, Ming Xu, Michael Milford, Tobias Fischer
- Abstract要約: 本稿では,Patch-NetVLADを紹介し,ローカルおよびグローバルデクリプタ手法の利点を組み合わせた新しい定式化を提案する。
Patch-NetVLADは,グローバルおよびローカルな特徴記述子ベースの手法と同等の計算量で優れることを示す。
ユーザ要件にも適応可能で、スピード最適化バージョンは最先端のものよりも桁違いに高速に動作する。
- 参考スコア(独自算出の注目度): 29.282413482297255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Place Recognition is a challenging task for robotics and autonomous
systems, which must deal with the twin problems of appearance and viewpoint
change in an always changing world. This paper introduces Patch-NetVLAD, which
provides a novel formulation for combining the advantages of both local and
global descriptor methods by deriving patch-level features from NetVLAD
residuals. Unlike the fixed spatial neighborhood regime of existing local
keypoint features, our method enables aggregation and matching of deep-learned
local features defined over the feature-space grid. We further introduce a
multi-scale fusion of patch features that have complementary scales (i.e. patch
sizes) via an integral feature space and show that the fused features are
highly invariant to both condition (season, structure, and illumination) and
viewpoint (translation and rotation) changes. Patch-NetVLAD outperforms both
global and local feature descriptor-based methods with comparable compute,
achieving state-of-the-art visual place recognition results on a range of
challenging real-world datasets, including winning the Facebook Mapillary
Visual Place Recognition Challenge at ECCV2020. It is also adaptable to user
requirements, with a speed-optimised version operating over an order of
magnitude faster than the state-of-the-art. By combining superior performance
with improved computational efficiency in a configurable framework,
Patch-NetVLAD is well suited to enhance both stand-alone place recognition
capabilities and the overall performance of SLAM systems.
- Abstract(参考訳): 視覚場所認識は、常に変化する世界の外観と視点の変化の双対の問題に対処する必要があるロボットと自律システムのための挑戦的なタスクです。
本論文では,パッチレベルの特徴をNetVLAD残余から導出することにより,ローカルとグローバルの両方のディスクリプタメソッドの利点を組み合わせるための新しい定式化を提供する。
既存の局所キーポイント特徴の固定空間近傍体制とは異なり、特徴空間グリッド上で定義された深層学習局所特徴の集約とマッチングを可能にする。
さらに、補完的スケールを持つパッチ機能のマルチスケール融合についても紹介する。
パッチサイズ) 統合的な特徴空間を通して、融合した特徴が条件(シーズン、構造、照明)と視点(翻訳と回転)の両方に非常に不変であることを示す。
Patch-NetVLADは、同等の計算でグローバルとローカルのフィーチャーディスクリプタベースのメソッドを上回り、ECCV2020でFacebook Mapillary Visual Place Recognition Challengeを受賞するなど、さまざまな困難な現実世界のデータセットで最先端のビジュアルプレース認識結果を達成します。
ユーザ要件にも適応可能で、スピード最適化バージョンは最先端のものよりも桁違いに高速に動作する。
Patch-NetVLADは、構成可能なフレームワークで優れたパフォーマンスと計算効率を組み合わせることで、スタンドアロンの認識能力とSLAMシステムの全体的なパフォーマンスの両方を向上させるのに適しています。
関連論文リスト
- Slide-Transformer: Hierarchical Vision Transformer with Local
Self-Attention [34.26177289099421]
視覚変換器(ViT)の最近の進歩において、自己注意機構が重要な要素となっている。
本稿では,高効率,柔軟性,一般化性を実現するために共通畳み込み演算を利用する新しいローカルアテンションモジュールを提案する。
我々のモジュールは、効率的かつ柔軟な方法で局所的な注意パラダイムを実現する。
論文 参考訳(メタデータ) (2023-04-09T13:37:59Z) - Adaptive Spot-Guided Transformer for Consistent Local Feature Matching [64.30749838423922]
局所的特徴マッチングのための適応スポットガイド変換器(ASTR)を提案する。
ASTRは、統一された粗いアーキテクチャにおける局所的な一貫性とスケールのバリエーションをモデル化する。
論文 参考訳(メタデータ) (2023-03-29T12:28:01Z) - Spatial-Aware Token for Weakly Supervised Object Localization [137.0570026552845]
タスク固有の空間認識トークンを,弱教師付き方式で条件定位に提案する。
実験の結果、SATはCUB-200とImageNetの両方で、98.45%と73.13%のGT-known Locで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-03-18T15:38:17Z) - Real-time Local Feature with Global Visual Information Enhancement [6.640269424085467]
現在のディープラーニングベースのローカル特徴アルゴリズムは、常に限定的な受容場を持つ畳み込みニューラルネットワーク(CNN)アーキテクチャを利用する。
提案手法では,軽量ネットワークにおいて,グローバルな視覚的手がかりを融合するグローバル拡張モジュールを提案する。
公開ベンチマークの実験では、この提案が視覚的干渉に対してかなりの堅牢性を達成し、同時にリアルタイムに実行できることが示されている。
論文 参考訳(メタデータ) (2022-11-20T13:44:20Z) - Centralized Feature Pyramid for Object Detection [53.501796194901964]
視覚的特徴ピラミッドは、広範囲のアプリケーションにおいて、有効性と効率の両方において、その優位性を示している。
本稿では,オブジェクト検出のためのOLO特徴ピラミッドを提案する。
論文 参考訳(メタデータ) (2022-10-05T08:32:54Z) - Adaptive Local-Component-aware Graph Convolutional Network for One-shot
Skeleton-based Action Recognition [54.23513799338309]
骨格に基づく行動認識のための適応的局所成分認識グラフ畳み込みネットワークを提案する。
我々の手法はグローバルな埋め込みよりも強力な表現を提供し、我々のモデルが最先端に到達するのに役立ちます。
論文 参考訳(メタデータ) (2022-09-21T02:33:07Z) - SphereVLAD++: Attention-based and Signal-enhanced Viewpoint Invariant
Descriptor [6.326554177747699]
SphereVLAD++ は注目度が高められた視点不変位置認識手法である。
SphereVLAD++は、小さな視点や完全に逆の視点差の下で、最先端の3D位置認識手法をすべて上回ることを示す。
論文 参考訳(メタデータ) (2022-07-06T20:32:43Z) - Cross-modal Local Shortest Path and Global Enhancement for
Visible-Thermal Person Re-Identification [2.294635424666456]
本稿では,局所的特徴とグローバル的特徴の同時学習に基づく2ストリームネットワークであるCM-LSP-GE(Cross-modal Local Shortest Path and Global Enhancement)モジュールを提案する。
2つの典型的なデータセットの実験結果は、我々のモデルは明らかに最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2022-06-09T10:27:22Z) - Conformer: Local Features Coupling Global Representations for Visual
Recognition [72.9550481476101]
本稿では,畳み込み操作と自己アテンション機構を利用した表現学習のためのハイブリッドネットワーク構造,conformerを提案する。
実験では、コンフォーマーが同等のパラメータ複雑性の下で視覚変換器(DeiT-B)を2.3%上回ることが示されている。
論文 参考訳(メタデータ) (2021-05-09T10:00:03Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。