論文の概要: Unifying Local and Global Multimodal Features for Place Recognition in Aliased and Low-Texture Environments
- arxiv url: http://arxiv.org/abs/2403.13395v1
- Date: Wed, 20 Mar 2024 08:35:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 17:28:32.143734
- Title: Unifying Local and Global Multimodal Features for Place Recognition in Aliased and Low-Texture Environments
- Title(参考訳): 低環境環境における場所認識のための局所的・グローバル的マルチモーダル特徴の統合
- Authors: Alberto García-Hernández, Riccardo Giubilato, Klaus H. Strobl, Javier Civera, Rudolph Triebel,
- Abstract要約: 本稿では,視覚とLiDARの機能間のクロスアテンションブロックによってマルチモーダル性を活用するUMFという新しいモデルを提案する。
実験では、特に惑星系で捕獲された配列について、UMFが以前のベースラインよりもかなり優れていたことが示されている。
我々の研究は、すべての状況においてSLAMの信頼性を高めることを目的としており、広く使用されているRobotCarデータセットのパフォーマンスについても検討している。
- 参考スコア(独自算出の注目度): 19.859565090638167
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Perceptual aliasing and weak textures pose significant challenges to the task of place recognition, hindering the performance of Simultaneous Localization and Mapping (SLAM) systems. This paper presents a novel model, called UMF (standing for Unifying Local and Global Multimodal Features) that 1) leverages multi-modality by cross-attention blocks between vision and LiDAR features, and 2) includes a re-ranking stage that re-orders based on local feature matching the top-k candidates retrieved using a global representation. Our experiments, particularly on sequences captured on a planetary-analogous environment, show that UMF outperforms significantly previous baselines in those challenging aliased environments. Since our work aims to enhance the reliability of SLAM in all situations, we also explore its performance on the widely used RobotCar dataset, for broader applicability. Code and models are available at https://github.com/DLR-RM/UMF
- Abstract(参考訳): 知覚的エイリアスと弱いテクスチャは、位置認識のタスクに重大な課題をもたらし、同時局在マッピング(SLAM)システムの性能を阻害する。
本稿では、UMF(Unified Local and Global Multimodal Features)と呼ばれる新しいモデルを提案する。
1)視覚とLiDARの特徴間のクロスアテンションブロックによるマルチモダリティの活用,及び
このステージでは、グローバル表現を使用して検索されたトップk候補にマッチするローカル機能に基づいて、再注文を行う。
我々の実験は、特に惑星系で捕獲された配列において、UMFはこれらの難易度の高い環境において、かなり過去のベースラインよりも優れていたことを示す。
我々の研究は、すべての状況においてSLAMの信頼性を高めることを目的としているため、広く使われているRobotCarデータセットのパフォーマンスについても検討し、より広範な適用性を実現している。
コードとモデルはhttps://github.com/DLR-RM/UMFで公開されている。
関連論文リスト
- INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model [71.50973774576431]
本稿では,高解像度画像認識のための新しいMLLM INF-LLaVAを提案する。
我々はDCM(Dual-perspective Cropping Module)を導入し、各サブイメージが局所的な視点から連続的な詳細を含むことを保証する。
第2に,グローバルな特徴と局所的な特徴の相互強化を可能にするDEM(Dual-perspective Enhancement Module)を導入する。
論文 参考訳(メタデータ) (2024-07-23T06:02:30Z) - Other Tokens Matter: Exploring Global and Local Features of Vision Transformers for Object Re-Identification [63.147482497821166]
我々はまず,ViTのグローバルおよびローカルな特徴の影響を探求し,高性能オブジェクトRe-IDのための新しいグローバルローカ変換器(GLTrans)を提案する。
提案手法は,4つのオブジェクトRe-IDベンチマークにおいて優れた性能を実現する。
論文 参考訳(メタデータ) (2024-04-23T12:42:07Z) - Modality-Collaborative Transformer with Hybrid Feature Reconstruction
for Robust Emotion Recognition [35.15390769958969]
ハイブリッド特徴再構成(MCT-HFR)を用いた統一型モダリティ協調変換器を提案する。
MCT-HFRは、モダリティ内およびモダリティ間関係を同時に抽出し、動的にバランスをとる新しいアテンションベースのエンコーダで構成されている。
モデルトレーニング中、LFIは、完全特徴を監督信号として活用し、局所的欠落した特徴を回復する一方、GFAはペア完全表現と不完全表現のグローバルな意味的ギャップを減らすように設計されている。
論文 参考訳(メタデータ) (2023-12-26T01:59:23Z) - Optimization Efficient Open-World Visual Region Recognition [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z) - FS-Real: Towards Real-World Cross-Device Federated Learning [60.91678132132229]
Federated Learning (FL)は、ローカルデータをアップロードすることなく、分散クライアントと協調して高品質なモデルをトレーニングすることを目的としている。
FL研究と実世界のシナリオの間には依然としてかなりのギャップがあり、主に異種デバイスの特徴とそのスケールによって引き起こされている。
本稿では,実世界横断デバイスFL,FS-Realのための効率的でスケーラブルなプロトタイピングシステムを提案する。
論文 参考訳(メタデータ) (2023-03-23T15:37:17Z) - Style-Hallucinated Dual Consistency Learning: A Unified Framework for
Visual Domain Generalization [113.03189252044773]
本稿では,様々な視覚的タスクにおけるドメインシフトを処理するための統合フレームワークであるStyle-HAllucinated Dual consistEncy Learning (SHADE)を提案する。
我々の汎用SHADEは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、様々な視覚認識タスクにおける一般化を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-12-18T11:42:51Z) - RING++: Roto-translation Invariant Gram for Global Localization on a
Sparse Scan Map [20.276334172402763]
本稿では、位置認識のためのロト変換不変表現と、回転と翻訳の両方のグローバル収束を持つRing++を提案する。
理論的保証により、RING++はスパーススキャン付き軽量マップを使用して、大きな視点差に対処することができる。
これはスパーススキャンマップにおけるグローバルローカライゼーションのすべてのサブタスクに対処する初めての学習不要フレームワークである。
論文 参考訳(メタデータ) (2022-10-12T07:49:24Z) - Cross-modal Local Shortest Path and Global Enhancement for
Visible-Thermal Person Re-Identification [2.294635424666456]
本稿では,局所的特徴とグローバル的特徴の同時学習に基づく2ストリームネットワークであるCM-LSP-GE(Cross-modal Local Shortest Path and Global Enhancement)モジュールを提案する。
2つの典型的なデータセットの実験結果は、我々のモデルは明らかに最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2022-06-09T10:27:22Z) - Patch-NetVLAD: Multi-Scale Fusion of Locally-Global Descriptors for
Place Recognition [29.282413482297255]
本稿では,Patch-NetVLADを紹介し,ローカルおよびグローバルデクリプタ手法の利点を組み合わせた新しい定式化を提案する。
Patch-NetVLADは,グローバルおよびローカルな特徴記述子ベースの手法と同等の計算量で優れることを示す。
ユーザ要件にも適応可能で、スピード最適化バージョンは最先端のものよりも桁違いに高速に動作する。
論文 参考訳(メタデータ) (2021-03-02T05:53:32Z) - Gait Recognition via Effective Global-Local Feature Representation and
Local Temporal Aggregation [28.721376937882958]
歩行認識は最も重要な生体計測技術の一つであり、多くの分野で応用されている。
近年の歩行認識フレームワークは、人間のグローバルな外観または地域から抽出された記述子によって各歩行フレームを表現している。
歩行認識のための識別的特徴表現を実現するための新しい特徴抽出・融合フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-03T04:07:13Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。