論文の概要: MapFusion: A Novel BEV Feature Fusion Network for Multi-modal Map Construction
- arxiv url: http://arxiv.org/abs/2502.04377v1
- Date: Wed, 05 Feb 2025 16:25:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:58:09.764660
- Title: MapFusion: A Novel BEV Feature Fusion Network for Multi-modal Map Construction
- Title(参考訳): MapFusion: マルチモーダルマップ構築のための新しいBEV機能融合ネットワーク
- Authors: Xiaoshuai Hao, Yunfeng Diao, Mengchuan Wei, Yifan Yang, Peng Hao, Rong Yin, Hui Zhang, Weiming Li, Shu Zhao, Yu Liu,
- Abstract要約: 本研究では,新しいマルチモーダルバードアイビュー (BEV) 機能融合手法であるMapFusionを提案する。
本稿では,2つのBEV特徴空間間の相互作用を可能にするクロスモーダル・インタラクション・トランスフォーメーション(CIT)モジュールを提案する。
また,異なるモダリティから有意な情報を適応的に選択するための効果的なデュアルダイナミックフュージョン(DDF)モジュールを提案する。
- 参考スコア(独自算出の注目度): 23.212961039696722
- License:
- Abstract: Map construction task plays a vital role in providing precise and comprehensive static environmental information essential for autonomous driving systems. Primary sensors include cameras and LiDAR, with configurations varying between camera-only, LiDAR-only, or camera-LiDAR fusion, based on cost-performance considerations. While fusion-based methods typically perform best, existing approaches often neglect modality interaction and rely on simple fusion strategies, which suffer from the problems of misalignment and information loss. To address these issues, we propose MapFusion, a novel multi-modal Bird's-Eye View (BEV) feature fusion method for map construction. Specifically, to solve the semantic misalignment problem between camera and LiDAR BEV features, we introduce the Cross-modal Interaction Transform (CIT) module, enabling interaction between two BEV feature spaces and enhancing feature representation through a self-attention mechanism. Additionally, we propose an effective Dual Dynamic Fusion (DDF) module to adaptively select valuable information from different modalities, which can take full advantage of the inherent information between different modalities. Moreover, MapFusion is designed to be simple and plug-and-play, easily integrated into existing pipelines. We evaluate MapFusion on two map construction tasks, including High-definition (HD) map and BEV map segmentation, to show its versatility and effectiveness. Compared with the state-of-the-art methods, MapFusion achieves 3.6% and 6.2% absolute improvements on the HD map construction and BEV map segmentation tasks on the nuScenes dataset, respectively, demonstrating the superiority of our approach.
- Abstract(参考訳): 地図構築タスクは、自律運転システムに不可欠な正確で包括的な静的環境情報を提供する上で重要な役割を担っている。
主センサーはカメラとLiDARで、カメラのみ、LiDARのみ、カメラとLiDARの融合の構成はコストパフォーマンスの観点から異なる。
融合ベースの手法は一般的に最善を尽くすが、既存の手法はしばしばモダリティの相互作用を無視し、誤った調整や情報損失の問題を抱える単純な融合戦略に依存している。
これらの問題に対処するために,マップ構築のための新しいマルチモーダルバードズ・アイビュー(BEV)機能融合法であるMapFusionを提案する。
具体的には、カメラとLiDARのBEV機能間の意味的ミスアライメント問題を解決するために、2つのBEV特徴空間間の相互作用を可能にするクロスモーダル・インタラクション・トランスフォーメーション・トランスフォーメーション(CIT)モジュールを導入し、自己認識機構による特徴表現の強化を図る。
さらに、異なるモード間の固有情報を完全に活用できる、異なるモードから有用な情報を適応的に選択する効果的なデュアルダイナミックフュージョン(DDF)モジュールを提案する。
さらにMapFusionはシンプルでプラグアンドプレイで、既存のパイプラインに簡単に統合できるように設計されている。
本研究では,ハイデフィニション(HD)マップとBEVマップセグメンテーションを含む2つのマップ構築タスクにおけるMapFusionを評価し,その汎用性と有効性を示す。
現状の手法と比較して、MapFusionはHDマップ構築における3.6%と6.2%の絶対的な改善と、nuScenesデータセット上のBEVマップセグメンテーションタスクをそれぞれ達成し、我々のアプローチの優位性を実証した。
関連論文リスト
- MapExpert: Online HD Map Construction with Simple and Efficient Sparse Map Element Expert [7.086030137483952]
専門家によるオンラインHDマップ手法であるMapExpertを紹介した。
MapExpertは、ルータが配布するスパースの専門家を利用して、様々な非キュビックマップ要素を正確に記述します。
論文 参考訳(メタデータ) (2024-12-17T09:19:44Z) - Neural Semantic Map-Learning for Autonomous Vehicles [85.8425492858912]
本稿では,道路環境のコヒーレントな地図を作成するために,車両群から収集した局所部分写像を中心インスタンスに融合するマッピングシステムを提案する。
本手法は,シーン特異的なニューラルサイン距離場を用いて,雑音と不完全局所部分写像を併用する。
我々は,記憶効率の高いスパース機能グリッドを活用して大規模にスケールし,シーン再構築における不確実性をモデル化するための信頼スコアを導入する。
論文 参考訳(メタデータ) (2024-10-10T10:10:03Z) - MemFusionMap: Working Memory Fusion for Online Vectorized HD Map Construction [6.743612231580936]
オンラインHDマップ構築のための時間的推論機能を強化した新しい時間的融合モデルを提案する。
具体的には,動作メモリの融合モジュールにコントリビュートして,モデルメモリの容量を向上し,フレームの履歴を解析する。
また、時間重なり情報と車両軌道についてモデルに明確に通知する新しい時間重なりヒートマップを設計する。
論文 参考訳(メタデータ) (2024-09-26T03:16:39Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。
We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。
提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文 参考訳(メタデータ) (2024-04-14T05:28:46Z) - IS-Fusion: Instance-Scene Collaborative Fusion for Multimodal 3D Object Detection [130.394884412296]
我々は,イノベーティブなマルチモーダル融合フレームワークであるIS-Fusionを提案する。
インスタンスレベルのコンテキスト情報とシーンレベルのコンテキスト情報をキャプチャする。
Is-Fusionは基本的に、BEVシーンレベルの融合のみに焦点を当てた既存のアプローチとは異なる。
論文 参考訳(メタデータ) (2024-03-22T14:34:17Z) - NeMO: Neural Map Growing System for Spatiotemporal Fusion in
Bird's-Eye-View and BDD-Map Benchmark [9.430779563669908]
視覚中心のBird's-Eye View表現は自律運転システムに不可欠である。
この研究は、読みやすく、説明可能なビッグマップを利用してローカルマップを生成するための、NeMOという新しいパラダイムを概説する。
すべてのBEVグリッドの特徴分布が同じパターンに従うと仮定して、すべてのグリッドに対して共有重み付きニューラルネットワークを採用して、ビッグマップを更新する。
論文 参考訳(メタデータ) (2023-06-07T15:46:15Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation [105.96557764248846]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z) - MapFusion: A General Framework for 3D Object Detection with HDMaps [17.482961825285013]
現代の3Dオブジェクトディテクタパイプラインにマップ情報を統合するためのMapFusionを提案します。
マップ情報を融合することにより、3つの強力な3dオブジェクト検出ベースラインで平均精度(map)が1.27ポイントから2.79ポイント向上する。
論文 参考訳(メタデータ) (2021-03-10T08:36:59Z) - Distributed Dynamic Map Fusion via Federated Learning for Intelligent
Networked Vehicles [9.748996198083425]
本稿では,高い地図品質を実現するために,連合学習に基づく動的地図融合フレームワークを提案する。
提案されたフレームワークはcarla(carla)シミュレーションプラットフォームに実装されている。
論文 参考訳(メタデータ) (2021-03-05T16:28:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。