論文の概要: BEVMOSNet: Multimodal Fusion for BEV Moving Object Segmentation
- arxiv url: http://arxiv.org/abs/2503.03280v1
- Date: Wed, 05 Mar 2025 09:03:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:52:10.927622
- Title: BEVMOSNet: Multimodal Fusion for BEV Moving Object Segmentation
- Title(参考訳): BEVMOSNet:BEV移動対象セグメンテーションのためのマルチモーダルフュージョン
- Authors: Hiep Truong Cong, Ajay Kumar Sigatapu, Arindam Das, Yashwanth Sharma, Venkatesh Satagopan, Ganesh Sistu, Ciaran Eising,
- Abstract要約: 本稿では,カメラ,LiDAR,レーダーを利用した最初のエンドツーエンドマルチモーダル融合であるBEVMOSNetを紹介し,鳥眼ビュー(BEV)における移動物体を正確に予測する。
IoUスコアが36.59%向上したのに対し、BEV-MoSegはビジョンベースである。
- 参考スコア(独自算出の注目度): 3.613463012025065
- License:
- Abstract: Accurate motion understanding of the dynamic objects within the scene in bird's-eye-view (BEV) is critical to ensure a reliable obstacle avoidance system and smooth path planning for autonomous vehicles. However, this task has received relatively limited exploration when compared to object detection and segmentation with only a few recent vision-based approaches presenting preliminary findings that significantly deteriorate in low-light, nighttime, and adverse weather conditions such as rain. Conversely, LiDAR and radar sensors remain almost unaffected in these scenarios, and radar provides key velocity information of the objects. Therefore, we introduce BEVMOSNet, to our knowledge, the first end-to-end multimodal fusion leveraging cameras, LiDAR, and radar to precisely predict the moving objects in BEV. In addition, we perform a deeper analysis to find out the optimal strategy for deformable cross-attention-guided sensor fusion for cross-sensor knowledge sharing in BEV. While evaluating BEVMOSNet on the nuScenes dataset, we show an overall improvement in IoU score of 36.59% compared to the vision-based unimodal baseline BEV-MoSeg (Sigatapu et al., 2023), and 2.35% compared to the multimodel SimpleBEV (Harley et al., 2022), extended for the motion segmentation task, establishing this method as the state-of-the-art in BEV motion segmentation.
- Abstract(参考訳): 鳥眼視(BEV)におけるシーン内の動的物体の正確な動作理解は、自律走行車に対する信頼性の高い障害物回避システムと円滑な経路計画を保証するために重要である。
しかし、この課題は、低照度、夜間、雨などの悪天候条件で著しく悪化する予備的な発見を示す、最近の視覚に基づくいくつかのアプローチと比較して、比較的限定的な調査を受けている。
逆に、LiDARとレーダーセンサーはほとんど影響を受けておらず、レーダーは物体の重要な速度情報を提供する。
そこで我々は,BEVにおける移動物体を正確に予測するために,カメラ,LiDAR,レーダーを利用した最初のエンドツーエンドのマルチモーダルフュージョンを導入したBEVMOSNetを紹介した。
さらに、BEVにおけるクロスセンサ知識共有のための変形可能なクロスアテンション誘導型センサフュージョンの最適戦略を明らかにするために、より深い分析を行う。
BEVMOSNet を nuScenes データセット上で評価しながら,視覚に基づく単調なベースラインである BEV-MoSeg (Sigatapu et al , 2023) と比較して,IoU のスコアが36.59%,マルチモデルである SimpleBEV (Harley et al , 2022) と比較して2.35% 向上し,BEV の動作セグメンテーションにおける最先端技術として確立した。
関連論文リスト
- RaCFormer: Towards High-Quality 3D Object Detection via Query-based Radar-Camera Fusion [58.77329237533034]
本稿では3次元物体検出の精度を高めるために,Raar-Camera fusion transformer (RaCFormer)を提案する。
RaCFormerは64.9%のmAPと70.2%のNDSをnuScene上で達成し、LiDARベースの検出器よりも優れている。
論文 参考訳(メタデータ) (2024-12-17T09:47:48Z) - OE-BevSeg: An Object Informed and Environment Aware Multimodal Framework for Bird's-eye-view Vehicle Semantic Segmentation [57.2213693781672]
Bird's-eye-view (BEV)セマンティックセマンティックセグメンテーションは自律運転システムにおいて重要である。
本稿では,BEVセグメンテーション性能を向上させるエンドツーエンドマルチモーダルフレームワークであるOE-BevSegを提案する。
提案手法は,車両セグメンテーションのためのnuScenesデータセットにおいて,最先端の成果を大きなマージンで達成する。
論文 参考訳(メタデータ) (2024-07-18T03:48:22Z) - BLOS-BEV: Navigation Map Enhanced Lane Segmentation Network, Beyond Line of Sight [30.45553559416835]
我々は,視線を超越した正確な知覚のためにSDマップを組み込んだ新しいBEVセグメンテーションモデルBLOS-BEVを提案する。
我々のアプローチは一般的なBEVアーキテクチャに適用でき、SDマップから得られる情報を組み込むことで優れた結果を得ることができる。
論文 参考訳(メタデータ) (2024-07-11T14:15:48Z) - Benchmarking and Improving Bird's Eye View Perception Robustness in Autonomous Driving [55.93813178692077]
本稿では,BEVアルゴリズムのレジリエンスを評価するためのベンチマークスイートであるRoboBEVを紹介する。
検出,マップセグメンテーション,深さ推定,占有予測といったタスクにまたがる33の最先端のBEVベースの知覚モデルを評価する。
また, 事前学習や深度自由なBEVトランスフォーメーションなどの戦略が, アウト・オブ・ディストリビューションデータに対するロバスト性を高める上で有効であることを示す。
論文 参考訳(メタデータ) (2024-05-27T17:59:39Z) - BEVCar: Camera-Radar Fusion for BEV Map and Object Segmentation [22.870994478494566]
共同BEVオブジェクトとマップセグメンテーションのための新しいアプローチであるBEVCarを紹介する。
我々のアプローチの中核的な特徴は、まず生のレーダーデータのポイントベース符号化を学習することにある。
レーダ情報の導入は, 環境問題におけるロバスト性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-03-18T13:14:46Z) - Instance-aware Multi-Camera 3D Object Detection with Structural Priors
Mining and Self-Boosting Learning [93.71280187657831]
カメラによる鳥眼視(BEV)知覚パラダイムは、自律運転分野において大きな進歩を遂げている。
画像平面のインスタンス認識をBEV検出器内の深度推定プロセスに統合するIA-BEVを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:24:42Z) - Towards Efficient 3D Object Detection in Bird's-Eye-View Space for Autonomous Driving: A Convolutional-Only Approach [13.513005108086006]
BEVENetと呼ばれるBEVベースの効率的な3D検出フレームワークを提案する。
BEVENetは、NuScenesチャレンジに対する現代の最先端(SOTA)アプローチよりも3$times$高速である。
実験の結果,BEVENetは現代の最先端(SOTA)アプローチよりも3$times$高速であることがわかった。
論文 参考訳(メタデータ) (2023-12-01T14:52:59Z) - OCBEV: Object-Centric BEV Transformer for Multi-View 3D Object Detection [29.530177591608297]
マルチビュー3Dオブジェクト検出は、高い有効性と低コストのため、自動運転において人気を博している。
現在の最先端検出器のほとんどは、クエリベースのバードアイビュー(BEV)パラダイムに従っている。
本稿では,移動対象の時間的・空間的手がかりをより効率的に彫ることができるOCBEVを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:59:48Z) - MetaBEV: Solving Sensor Failures for BEV Detection and Map Segmentation [104.12419434114365]
現実世界のアプリケーションでは、センサの破損や故障がパフォーマンスの低下につながります。
極端に現実世界の環境に対処するための,MetaBEVと呼ばれる堅牢なフレームワークを提案する。
MetaBEVは、完全なモダリティと腐敗したモダリティの両方に大きなマージンで、先行技術よりも優れています。
論文 参考訳(メタデータ) (2023-04-19T16:37:17Z) - Fully Convolutional One-Stage 3D Object Detection on LiDAR Range Images [96.66271207089096]
FCOS-LiDARは、自律走行シーンのLiDAR点雲のための完全な1段式3Dオブジェクト検出器である。
標準的な2Dコンボリューションを持つRVベースの3D検出器は、最先端のBEVベースの検出器と同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-05-27T05:42:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。