論文の概要: UniMPR: A Unified Framework for Multimodal Place Recognition with Heterogeneous Sensor Configurations
- arxiv url: http://arxiv.org/abs/2512.18279v2
- Date: Tue, 23 Dec 2025 07:22:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 13:10:52.740139
- Title: UniMPR: A Unified Framework for Multimodal Place Recognition with Heterogeneous Sensor Configurations
- Title(参考訳): UniMPR: 異種センサ構成によるマルチモーダル位置認識のための統一フレームワーク
- Authors: Zhangshuo Qi, Jingyi Xu, Luqi Cheng, Shichen Wen, Yiming Ma, Guangming Xiong,
- Abstract要約: マルチモーダル位置認識のための統合フレームワークUniMPRを提案する。
訓練された1つのモデルのみを使用して、共通の知覚的モダリティの組み合わせにシームレスに適応することができる。
7つのデータセットの実験は、UniMPRが最先端のパフォーマンスを達成することを示す。
- 参考スコア(独自算出の注目度): 14.975915291012983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Place recognition is a critical component of autonomous vehicles and robotics, enabling global localization in GPS-denied environments. Recent advances have spurred significant interest in multimodal place recognition (MPR), which leverages complementary strengths of multiple modalities. Despite its potential, most existing MPR methods still face three key challenges: (1) dynamically adapting to various modality inputs within a unified framework, (2) maintaining robustness with missing or degraded modalities, and (3) generalizing across diverse sensor configurations and setups. In this paper, we propose UniMPR, a unified framework for multimodal place recognition. Using only one trained model, it can seamlessly adapt to any combination of common perceptual modalities (e.g., camera, LiDAR, radar). To tackle the data heterogeneity, we unify all inputs within a polar BEV feature space. Subsequently, the polar BEVs are fed into a multi-branch network to exploit discriminative intra-model and inter-modal features from any modality combinations. To fully exploit the network's generalization capability and robustness, we construct a large-scale training set from multiple datasets and introduce an adaptive label assignment strategy for extensive pre-training. Experiments on seven datasets demonstrate that UniMPR achieves state-of-the-art performance under varying sensor configurations, modality combinations, and environmental conditions. Our code will be released at https://github.com/QiZS-BIT/UniMPR.
- Abstract(参考訳): 位置認識は自動運転車やロボティクスの重要なコンポーネントであり、GPSで特定された環境でのグローバルなローカライゼーションを可能にする。
近年の進歩はマルチモーダル位置認識(MPR)に大きな関心を喚起し、複数のモーダルの相補的な強度を活用している。
その可能性にもかかわらず、既存のMPR手法は、(1) 統一されたフレームワーク内の様々なモーダル入力に動的に適応すること、(2) 欠落または劣化したモダリティによるロバスト性を維持すること、(3) 多様なセンサー構成と設定をまたいで一般化すること、の3つの大きな課題に直面している。
本論文では,マルチモーダル位置認識のための統合フレームワークUniMPRを提案する。
トレーニングされた1つのモデルのみを使用して、一般的な知覚的モダリティ(例えば、カメラ、LiDAR、レーダー)の組み合わせにシームレスに適応することができる。
データの不均一性に取り組むため、極性BEV特徴空間内の全ての入力を統一する。
その後、極性BEVはマルチブランチネットワークに供給され、任意のモダリティの組み合わせから識別的モデル内特徴とモーダル間特徴を利用する。
ネットワークの一般化能力とロバスト性を完全に活用するために、複数のデータセットから大規模なトレーニングセットを構築し、広範囲な事前学習のための適応ラベル割り当て戦略を導入する。
7つのデータセットの実験により、UniMPRは様々なセンサー構成、モダリティの組み合わせ、環境条件の下で最先端のパフォーマンスを達成することが示された。
私たちのコードはhttps://github.com/QiZS-BIT/UniMPRで公開されます。
関連論文リスト
- OmniGen: Unified Multimodal Sensor Generation for Autonomous Driving [58.693329943871355]
我々は,一貫したフレームワークでアライメントされたマルチモーダルセンサデータを生成するOminiGenを提案する。
このアプローチでは、共有のBirdu 2019s Eye View(BEV)スペースを活用して、マルチモーダル機能を統合する。
UAEはボリュームレンダリングによるマルチモーダルセンサデコーディングを実現し、正確で柔軟な再構築を可能にする。
論文 参考訳(メタデータ) (2025-12-16T09:18:15Z) - A Tri-Modal Dataset and a Baseline System for Tracking Unmanned Aerial Vehicles [74.8162337823142]
MM-UAVはMulti-Modal UAV Trackingの最初の大規模ベンチマークである。
データセットは30以上の挑戦的なシナリオにまたがっており、1,321の同期マルチモーダルシーケンスと280万以上の注釈付きフレームがある。
データセットを伴って、我々は新しいマルチモーダルマルチUAV追跡フレームワークを提供する。
論文 参考訳(メタデータ) (2025-11-23T08:42:17Z) - Multi-modal Multi-platform Person Re-Identification: Benchmark and Method [58.59888754340054]
MP-ReIDは、マルチモダリティとマルチプラットフォームReIDに特化した新しいデータセットである。
このベンチマークは、RGB、赤外線、サーマルイメージングなど、さまざまなモードで1,930のIDからデータをコンパイルする。
クロスモダリティとクロスプラットフォームシナリオに適した,特定設計のプロンプトを備えたフレームワークであるUni-Prompt ReIDを紹介する。
論文 参考訳(メタデータ) (2025-03-21T12:27:49Z) - GSPR: Multimodal Place Recognition Using 3D Gaussian Splatting for Autonomous Driving [9.023864430027333]
我々はGPSRと呼ばれる3次元ガウススプラッティングに基づくマルチモーダル位置認識ネットワークを提案する。
マルチビューRGB画像とLiDAR点雲を時間的に統一されたシーン表現とMultimodal Gaussian Splattingを明示的に組み合わせている。
提案手法は,多視点カメラとLiDARの相補的強度を有効活用し,ソタ位置認識性能を向上し,ソタ位置認識性能を向上する。
論文 参考訳(メタデータ) (2024-10-01T00:43:45Z) - LCPR: A Multi-Scale Attention-Based LiDAR-Camera Fusion Network for
Place Recognition [11.206532393178385]
本稿では,マルチモーダル位置認識のための新しいニューラルネットワークLCPRを提案する。
位置認識性能を向上させるために,マルチビューカメラとLiDARデータを効果的に利用することができる。
論文 参考訳(メタデータ) (2023-11-06T15:39:48Z) - UniM$^2$AE: Multi-modal Masked Autoencoders with Unified 3D Representation for 3D Perception in Autonomous Driving [47.590099762244535]
Masked Autoencoders (MAE)は、強力な表現の学習において重要な役割を担い、様々な3D知覚タスクにおいて優れた結果をもたらす。
この研究は、自律運転における統一された表現空間に適したマルチモーダルのMasked Autoencodersに展開する。
画像に固有のセマンティクスとLiDAR点雲の幾何学的複雑さを複雑に結合するため,UniM$2$AEを提案する。
論文 参考訳(メタデータ) (2023-08-21T02:13:40Z) - General-Purpose Multimodal Transformer meets Remote Sensing Semantic
Segmentation [35.100738362291416]
マルチモーダルAIは、特にセマンティックセグメンテーションのような複雑なタスクのために、補完的なデータソースを活用する。
汎用マルチモーダルネットワークの最近のトレンドは、最先端の性能を達成する大きな可能性を示している。
本稿では,3次元畳み込みを利用して重要なローカル情報をエンコードし,同時にモーダルな特徴を学習するUNet型モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-07T04:58:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。