論文の概要: BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View
Representation
- arxiv url: http://arxiv.org/abs/2205.13542v1
- Date: Thu, 26 May 2022 17:59:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-27 14:28:30.499695
- Title: BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View
Representation
- Title(参考訳): BEVFusion:Unified Bird's-Eye View Representationによるマルチタスクマルチセンサーフュージョン
- Authors: Zhijian Liu, Haotian Tang, Alexander Amini, Xinyu Yang, Huizi Mao,
Daniela Rus, Song Han
- Abstract要約: 本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
- 参考スコア(独自算出の注目度): 116.6111047218081
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-sensor fusion is essential for an accurate and reliable autonomous
driving system. Recent approaches are based on point-level fusion: augmenting
the LiDAR point cloud with camera features. However, the camera-to-LiDAR
projection throws away the semantic density of camera features, hindering the
effectiveness of such methods, especially for semantic-oriented tasks (such as
3D scene segmentation). In this paper, we break this deeply-rooted convention
with BEVFusion, an efficient and generic multi-task multi-sensor fusion
framework. It unifies multi-modal features in the shared bird's-eye view (BEV)
representation space, which nicely preserves both geometric and semantic
information. To achieve this, we diagnose and lift key efficiency bottlenecks
in the view transformation with optimized BEV pooling, reducing latency by more
than 40x. BEVFusion is fundamentally task-agnostic and seamlessly supports
different 3D perception tasks with almost no architectural changes. It
establishes the new state of the art on nuScenes, achieving 1.3% higher mAP and
NDS on 3D object detection and 13.6% higher mIoU on BEV map segmentation, with
1.9x lower computation cost.
- Abstract(参考訳): 高精度で信頼性の高い自動運転システムには,マルチセンサ融合が不可欠である。
最近のアプローチは、ポイントレベルの融合に基づいており、LiDARポイントクラウドをカメラ機能で強化している。
しかし、カメラ対LiDARプロジェクションは、カメラ特徴のセマンティックな密度を捨て、特に3Dシーンセグメンテーションのようなセマンティック指向タスクにおいて、このような手法の有効性を妨げる。
本稿では,効率良く汎用的なマルチタスクマルチセンサ融合フレームワークであるbevfusionで,この深く根ざした慣習を破る。
共有鳥眼ビュー(BEV)表現空間におけるマルチモーダルな特徴を統一し、幾何学的情報と意味的情報の両方を良好に保存する。
これを実現するために,bevプールを最適化したビュートランスフォーメーションのボトルネックを診断し,40倍以上のレイテンシ削減を行う。
BEVFusionは基本的にタスクに依存しず、アーキテクチャ上のほとんど変更なしに異なる3D知覚タスクをシームレスにサポートする。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、計算コストは1.9倍である。
関連論文リスト
- Progressive Multi-Modal Fusion for Robust 3D Object Detection [12.048303829428452]
既存の方法は、バードアイビュー(BEV)とパースペクティブビュー(PV)の両方のモードから特徴を投影することで、単一ビューでセンサフュージョンを実行する。
本稿では,中間クエリレベルとオブジェクトクエリレベルの両方で,BEVとPVの両方の機能を組み合わせたプログレッシブフュージョンフレームワークProFusion3Dを提案する。
我々のアーキテクチャは、局所的およびグローバルな特徴を融合させ、3次元オブジェクト検出の堅牢性を高める。
論文 参考訳(メタデータ) (2024-10-09T22:57:47Z) - DAOcc: 3D Object Detection Assisted Multi-Sensor Fusion for 3D Occupancy Prediction [11.349017382503986]
マルチセンサー融合は3次元意味的占有予測の精度と堅牢性を著しく向上させる。
既存のアプローチのほとんどは、トップパフォーマンスを達成するために大きな画像解像度と複雑なネットワークに依存している。
本稿では,3次元物体検出監視を利用して優れた性能を実現する,新しいマルチモーダル占有予測フレームワークであるBEccを提案する。
論文 参考訳(メタデータ) (2024-09-30T05:53:31Z) - SimDistill: Simulated Multi-modal Distillation for BEV 3D Object
Detection [56.24700754048067]
多視点カメラによる3Dオブジェクト検出は低コストで普及しているが、カメラデータのみから正確に3D形状を推定することは依然として困難である。
モデルアーキテクチャと蒸留戦略を慎重に構築し,シミュレートされたマルチモーダル蒸留(SimDistill)法を提案する。
我々のSimDistillは、コスト効率のよいカメラのみの配置を維持しながら、3Dオブジェクト検出のためのより良い特徴表現を学習することができる。
論文 参考訳(メタデータ) (2023-03-29T16:08:59Z) - TiG-BEV: Multi-view BEV 3D Object Detection via Target Inner-Geometry
Learning [7.6887888234987125]
本稿では,LiDARモダリティからカメラベースBEV検出器へのターゲット内形状の学習手法を提案する。
TiG-BEVは、BEVDepthを+2.3% NDS、+2.4% mAP、BEVDetを+9.1% NDS、+10.3% mAPで効果的に増強することができる。
論文 参考訳(メタデータ) (2022-12-28T17:53:43Z) - Center Feature Fusion: Selective Multi-Sensor Fusion of Center-based
Objects [26.59231069298659]
本稿では,自律走行車のためのロバストな3次元物体検出システムを構築するための新しい手法を提案する。
我々は、カメラとLiDARストリームのセンターベースの検出ネットワークを利用して、関連するオブジェクトの位置を識別する。
nuScenesデータセットでは、LiDARのみのベースラインを4.9%のmAPで上回り、他の融合法よりも100倍少ない特徴を融合させる。
論文 参考訳(メタデータ) (2022-09-26T17:51:18Z) - MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth
Seeds for 3D Object Detection [89.26380781863665]
自律運転システムにおける高精度で信頼性の高い3次元物体検出を実現するためには,LiDARとカメラ情報の融合が不可欠である。
近年のアプローチでは、2次元カメラ画像の3次元空間への昇華点によるカメラ特徴のセマンティックな密度の探索が試みられている。
マルチグラニュラリティLiDARとカメラ機能とのマルチスケールなプログレッシブインタラクションに焦点を当てた,新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-07T12:29:29Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z) - M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified
Birds-Eye View Representation [145.6041893646006]
M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。
M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
論文 参考訳(メタデータ) (2022-04-11T13:43:25Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。