論文の概要: Explicit Interaction for Fusion-Based Place Recognition
- arxiv url: http://arxiv.org/abs/2402.17264v1
- Date: Tue, 27 Feb 2024 07:19:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 17:21:58.575968
- Title: Explicit Interaction for Fusion-Based Place Recognition
- Title(参考訳): 融合型位置認識のための明示的相互作用
- Authors: Jingyi Xu, Junyi Ma, Qi Wu, Zijie Zhou, Yue Wang, Xieyuanli Chen, and
Ling Pei
- Abstract要約: 本稿では,2つのモードの明示的な相互作用を実現するために,EINetと呼ばれる新しい融合型ネットワークを提案する。
我々はnuScenesデータセットに基づく位置認識タスクのための新しいベンチマークを開発する。
我々のEINetは、最先端のフュージョンベースの位置認識アプローチと比較して、認識性能とソリッド・ジェネライゼーション能力に優れています。
- 参考スコア(独自算出の注目度): 23.894557966812727
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fusion-based place recognition is an emerging technique jointly utilizing
multi-modal perception data, to recognize previously visited places in
GPS-denied scenarios for robots and autonomous vehicles. Recent fusion-based
place recognition methods combine multi-modal features in implicit manners.
While achieving remarkable results, they do not explicitly consider what the
individual modality affords in the fusion system. Therefore, the benefit of
multi-modal feature fusion may not be fully explored. In this paper, we propose
a novel fusion-based network, dubbed EINet, to achieve explicit interaction of
the two modalities. EINet uses LiDAR ranges to supervise more robust vision
features for long time spans, and simultaneously uses camera RGB data to
improve the discrimination of LiDAR point clouds. In addition, we develop a new
benchmark for the place recognition task based on the nuScenes dataset. To
establish this benchmark for future research with comprehensive comparisons, we
introduce both supervised and self-supervised training schemes alongside
evaluation protocols. We conduct extensive experiments on the proposed
benchmark, and the experimental results show that our EINet exhibits better
recognition performance as well as solid generalization ability compared to the
state-of-the-art fusion-based place recognition approaches. Our open-source
code and benchmark are released at: https://github.com/BIT-XJY/EINet.
- Abstract(参考訳): フュージョンベースの位置認識は、マルチモーダルな知覚データを利用して、ロボットや自動運転車のGPSデニッドシナリオでこれまで訪れた場所を認識する新しい技術である。
近年の核融合型位置認識法は, 暗黙的に多モード特徴を組み合わせている。
顕著な結果が得られたが、融合系において個々のモダリティが与える価値を明示的に考慮していない。
したがって、マルチモーダルな特徴融合の利点を十分に探求することはできない。
本稿では,2つのモードの明示的な相互作用を実現するために,EINetと呼ばれる新しい融合型ネットワークを提案する。
EINetはLiDARレンジを使用して長期にわたってより堅牢な視覚機能を監視し、同時にカメラRGBデータを使用してLiDARポイントクラウドの識別を改善する。
さらに, nuScenesデータセットに基づく位置認識タスクのための新しいベンチマークを開発する。
このベンチマークを総合的な比較で確立するために,評価プロトコルとともに教師付きおよび自己監督型のトレーニングスキームを導入する。
提案するベンチマークを広範囲に実験し,実験結果から,最先端の核融合型位置認識手法と比較して,固有ネットの認識性能が向上し,高い一般化性が得られた。
私たちのオープンソースコードとベンチマークは、https://github.com/BIT-XJY/EINet.comで公開されています。
関連論文リスト
- GSPR: Multimodal Place Recognition Using 3D Gaussian Splatting for Autonomous Driving [9.023864430027333]
マルチモーダル位置認識は ユニセンサーシステムの弱点を克服する能力によって 注目を集めています
本稿では,GSPRと呼ばれる3次元ガウス型マルチモーダル位置認識ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2024-10-01T00:43:45Z) - MSSPlace: Multi-Sensor Place Recognition with Visual and Text Semantics [41.94295877935867]
マルチカメラのセットアップを活用し,マルチモーダル位置認識のための多様なデータソースを統合することの影響について検討する。
提案手法は,複数のカメラ,LiDAR点雲,セマンティックセグメンテーションマスク,テキストアノテーションなどの画像を用いて,総合的な位置記述子を生成する。
論文 参考訳(メタデータ) (2024-07-22T14:24:56Z) - Deep Boosting Learning: A Brand-new Cooperative Approach for Image-Text Matching [53.05954114863596]
画像テキストマッチングのための新しいDeep Boosting Learning (DBL)アルゴリズムを提案する。
アンカーブランチは、まずデータプロパティに関する洞察を提供するために訓練される。
ターゲットブランチは、一致したサンプルと未一致のサンプルとの相対距離をさらに拡大するために、より適応的なマージン制約を同時に課される。
論文 参考訳(メタデータ) (2024-04-28T08:44:28Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - LCPR: A Multi-Scale Attention-Based LiDAR-Camera Fusion Network for
Place Recognition [11.206532393178385]
本稿では,マルチモーダル位置認識のための新しいニューラルネットワークLCPRを提案する。
位置認識性能を向上させるために,マルチビューカメラとLiDARデータを効果的に利用することができる。
論文 参考訳(メタデータ) (2023-11-06T15:39:48Z) - Gait Recognition in the Wild: A Large-scale Benchmark and NAS-based
Baseline [95.88825497452716]
歩行ベンチマークにより、研究コミュニティは高性能歩行認識システムの訓練と評価を行うことができる。
GREWは、野生における歩行認識のための最初の大規模データセットである。
SPOSGaitはNASベースの最初の歩行認識モデルである。
論文 参考訳(メタデータ) (2022-05-05T14:57:39Z) - Target-aware Dual Adversarial Learning and a Multi-scenario
Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection [65.30079184700755]
本研究は、物体検出のために異なるように見える赤外線と可視画像の融合の問題に対処する。
従来のアプローチでは、2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。
本稿では、融合と検出の連立問題に対する二段階最適化の定式化を提案し、その後、核融合と一般的に使用される検出ネットワークのためのターゲット認識デュアル逆学習(TarDAL)ネットワークに展開する。
論文 参考訳(メタデータ) (2022-03-30T11:44:56Z) - On Exploring Pose Estimation as an Auxiliary Learning Task for
Visible-Infrared Person Re-identification [66.58450185833479]
本稿では,Pose Estimationを補助学習タスクとして活用して,エンドツーエンドフレームワークにおけるVI-ReIDタスクを支援する。
これら2つのタスクを相互に有利な方法で共同でトレーニングすることにより、高品質なモダリティ共有とID関連の特徴を学習する。
2つのベンチマークVI-ReIDデータセットの実験結果から,提案手法は一定のマージンで最先端の手法を継続的に改善することが示された。
論文 参考訳(メタデータ) (2022-01-11T09:44:00Z) - Specificity-preserving RGB-D Saliency Detection [103.3722116992476]
本稿では,RGB-Dサリエンシ検出のための特異性保存ネットワーク(SP-Net)を提案する。
2つのモダリティ特化ネットワークと共有学習ネットワークを採用し、個別および共有唾液マップを生成する。
6つのベンチマークデータセットの実験では、SP-Netは他の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-08-18T14:14:22Z) - Memory based fusion for multi-modal deep learning [39.29589204750581]
メモリベースのAttentive Fusionレイヤは、現在の機能と長期依存の両方をデータに組み込むことで、モードをフューズする。
データに現在の特徴と長期的依存関係の両方を組み込むことで、モデムを融合するメモリベースのアテンティブフュージョン層を新たに提案する。
論文 参考訳(メタデータ) (2020-07-16T02:05:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。