Fugu-MT 論文翻訳(概要): Patch-NetVLAD: Multi-Scale Fusion of Locally-Global Descriptors for Place Recognition

論文の概要: Patch-NetVLAD: Multi-Scale Fusion of Locally-Global Descriptors for Place Recognition

arxiv url: http://arxiv.org/abs/2103.01486v1
Date: Tue, 2 Mar 2021 05:53:32 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-03 16:28:08.959842
Title: Patch-NetVLAD: Multi-Scale Fusion of Locally-Global Descriptors for Place Recognition
Title（参考訳）: Patch-NetVLAD:場所認識のためのローカルグローバルディスクリプタのマルチスケール融合
Authors: Stephen Hausler, Sourav Garg, Ming Xu, Michael Milford, Tobias Fischer
Abstract要約: 本稿では,Patch-NetVLADを紹介し,ローカルおよびグローバルデクリプタ手法の利点を組み合わせた新しい定式化を提案する。 Patch-NetVLADは,グローバルおよびローカルな特徴記述子ベースの手法と同等の計算量で優れることを示す。ユーザ要件にも適応可能で、スピード最適化バージョンは最先端のものよりも桁違いに高速に動作する。
参考スコア（独自算出の注目度）: 29.282413482297255
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual Place Recognition is a challenging task for robotics and autonomous systems, which must deal with the twin problems of appearance and viewpoint change in an always changing world. This paper introduces Patch-NetVLAD, which provides a novel formulation for combining the advantages of both local and global descriptor methods by deriving patch-level features from NetVLAD residuals. Unlike the fixed spatial neighborhood regime of existing local keypoint features, our method enables aggregation and matching of deep-learned local features defined over the feature-space grid. We further introduce a multi-scale fusion of patch features that have complementary scales (i.e. patch sizes) via an integral feature space and show that the fused features are highly invariant to both condition (season, structure, and illumination) and viewpoint (translation and rotation) changes. Patch-NetVLAD outperforms both global and local feature descriptor-based methods with comparable compute, achieving state-of-the-art visual place recognition results on a range of challenging real-world datasets, including winning the Facebook Mapillary Visual Place Recognition Challenge at ECCV2020. It is also adaptable to user requirements, with a speed-optimised version operating over an order of magnitude faster than the state-of-the-art. By combining superior performance with improved computational efficiency in a configurable framework, Patch-NetVLAD is well suited to enhance both stand-alone place recognition capabilities and the overall performance of SLAM systems.
Abstract（参考訳）: 視覚場所認識は、常に変化する世界の外観と視点の変化の双対の問題に対処する必要があるロボットと自律システムのための挑戦的なタスクです。本論文では,パッチレベルの特徴をNetVLAD残余から導出することにより,ローカルとグローバルの両方のディスクリプタメソッドの利点を組み合わせるための新しい定式化を提供する。既存の局所キーポイント特徴の固定空間近傍体制とは異なり、特徴空間グリッド上で定義された深層学習局所特徴の集約とマッチングを可能にする。さらに、補完的スケールを持つパッチ機能のマルチスケール融合についても紹介する。パッチサイズ) 統合的な特徴空間を通して、融合した特徴が条件(シーズン、構造、照明)と視点(翻訳と回転)の両方に非常に不変であることを示す。 Patch-NetVLADは、同等の計算でグローバルとローカルのフィーチャーディスクリプタベースのメソッドを上回り、ECCV2020でFacebook Mapillary Visual Place Recognition Challengeを受賞するなど、さまざまな困難な現実世界のデータセットで最先端のビジュアルプレース認識結果を達成します。ユーザ要件にも適応可能で、スピード最適化バージョンは最先端のものよりも桁違いに高速に動作する。 Patch-NetVLADは、構成可能なフレームワークで優れたパフォーマンスと計算効率を組み合わせることで、スタンドアロンの認識能力とSLAMシステムの全体的なパフォーマンスの両方を向上させるのに適しています。

関連論文リスト

PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。 PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。 PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文参考訳（メタデータ） (2024-08-26T19:43:01Z)
HiRes-LLaVA: Restoring Fragmentation Input in High-Resolution Large Vision-Language Models [96.76995840807615]
HiRes-LLaVAは、元の文脈情報や幾何学的情報を変更することなく、高解像度入力のサイズを処理するように設計された新しいフレームワークである。 HiRes-LLaVAは、2つの革新的なコンポーネントで構成されている: (i)スライスしたパッチを元の形式に再構築し、ダウンアップサンプリング層と畳み込み層を通じてグローバルとローカルの両方の特徴を効率的に抽出するSliceRestoreアダプタ、(ii)自分自身に基づいてビジョントークンを圧縮するセルフマイニングサンプリング。
論文参考訳（メタデータ） (2024-07-11T17:42:17Z)
Unifying Local and Global Multimodal Features for Place Recognition in Aliased and Low-Texture Environments [19.859565090638167]
本稿では,視覚とLiDARの機能間のクロスアテンションブロックによってマルチモーダル性を活用するUMFという新しいモデルを提案する。実験では、特に惑星系で捕獲された配列について、UMFが以前のベースラインよりもかなり優れていたことが示されている。我々の研究は、すべての状況においてSLAMの信頼性を高めることを目的としており、広く使用されているRobotCarデータセットのパフォーマンスについても検討している。
論文参考訳（メタデータ） (2024-03-20T08:35:57Z)
Slide-Transformer: Hierarchical Vision Transformer with Local Self-Attention [34.26177289099421]
視覚変換器(ViT)の最近の進歩において、自己注意機構が重要な要素となっている。本稿では,高効率,柔軟性,一般化性を実現するために共通畳み込み演算を利用する新しいローカルアテンションモジュールを提案する。我々のモジュールは、効率的かつ柔軟な方法で局所的な注意パラダイムを実現する。
論文参考訳（メタデータ） (2023-04-09T13:37:59Z)
Spatial-Aware Token for Weakly Supervised Object Localization [137.0570026552845]
タスク固有の空間認識トークンを,弱教師付き方式で条件定位に提案する。実験の結果、SATはCUB-200とImageNetの両方で、98.45%と73.13%のGT-known Locで最先端のパフォーマンスを達成した。
論文参考訳（メタデータ） (2023-03-18T15:38:17Z)
Adaptive Local-Component-aware Graph Convolutional Network for One-shot Skeleton-based Action Recognition [54.23513799338309]
骨格に基づく行動認識のための適応的局所成分認識グラフ畳み込みネットワークを提案する。我々の手法はグローバルな埋め込みよりも強力な表現を提供し、我々のモデルが最先端に到達するのに役立ちます。
論文参考訳（メタデータ） (2022-09-21T02:33:07Z)
SphereVLAD++: Attention-based and Signal-enhanced Viewpoint Invariant Descriptor [6.326554177747699]
SphereVLAD++ は注目度が高められた視点不変位置認識手法である。 SphereVLAD++は、小さな視点や完全に逆の視点差の下で、最先端の3D位置認識手法をすべて上回ることを示す。
論文参考訳（メタデータ） (2022-07-06T20:32:43Z)
Cross-modal Local Shortest Path and Global Enhancement for Visible-Thermal Person Re-Identification [2.294635424666456]
本稿では,局所的特徴とグローバル的特徴の同時学習に基づく2ストリームネットワークであるCM-LSP-GE(Cross-modal Local Shortest Path and Global Enhancement)モジュールを提案する。 2つの典型的なデータセットの実験結果は、我々のモデルは明らかに最先端の手法よりも優れていることを示している。
論文参考訳（メタデータ） (2022-06-09T10:27:22Z)
Conformer: Local Features Coupling Global Representations for Visual Recognition [72.9550481476101]
本稿では,畳み込み操作と自己アテンション機構を利用した表現学習のためのハイブリッドネットワーク構造,conformerを提案する。実験では、コンフォーマーが同等のパラメータ複雑性の下で視覚変換器(DeiT-B)を2.3%上回ることが示されている。
論文参考訳（メタデータ） (2021-05-09T10:00:03Z)
Global Context-Aware Progressive Aggregation Network for Salient Object Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2020-03-02T04:26:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。