論文の概要: BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View
Representation
- arxiv url: http://arxiv.org/abs/2205.13542v1
- Date: Thu, 26 May 2022 17:59:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-27 14:28:30.499695
- Title: BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View
Representation
- Title(参考訳): BEVFusion:Unified Bird's-Eye View Representationによるマルチタスクマルチセンサーフュージョン
- Authors: Zhijian Liu, Haotian Tang, Alexander Amini, Xinyu Yang, Huizi Mao,
Daniela Rus, Song Han
- Abstract要約: 本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
- 参考スコア(独自算出の注目度): 116.6111047218081
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-sensor fusion is essential for an accurate and reliable autonomous
driving system. Recent approaches are based on point-level fusion: augmenting
the LiDAR point cloud with camera features. However, the camera-to-LiDAR
projection throws away the semantic density of camera features, hindering the
effectiveness of such methods, especially for semantic-oriented tasks (such as
3D scene segmentation). In this paper, we break this deeply-rooted convention
with BEVFusion, an efficient and generic multi-task multi-sensor fusion
framework. It unifies multi-modal features in the shared bird's-eye view (BEV)
representation space, which nicely preserves both geometric and semantic
information. To achieve this, we diagnose and lift key efficiency bottlenecks
in the view transformation with optimized BEV pooling, reducing latency by more
than 40x. BEVFusion is fundamentally task-agnostic and seamlessly supports
different 3D perception tasks with almost no architectural changes. It
establishes the new state of the art on nuScenes, achieving 1.3% higher mAP and
NDS on 3D object detection and 13.6% higher mIoU on BEV map segmentation, with
1.9x lower computation cost.
- Abstract(参考訳): 高精度で信頼性の高い自動運転システムには,マルチセンサ融合が不可欠である。
最近のアプローチは、ポイントレベルの融合に基づいており、LiDARポイントクラウドをカメラ機能で強化している。
しかし、カメラ対LiDARプロジェクションは、カメラ特徴のセマンティックな密度を捨て、特に3Dシーンセグメンテーションのようなセマンティック指向タスクにおいて、このような手法の有効性を妨げる。
本稿では,効率良く汎用的なマルチタスクマルチセンサ融合フレームワークであるbevfusionで,この深く根ざした慣習を破る。
共有鳥眼ビュー(BEV)表現空間におけるマルチモーダルな特徴を統一し、幾何学的情報と意味的情報の両方を良好に保存する。
これを実現するために,bevプールを最適化したビュートランスフォーメーションのボトルネックを診断し,40倍以上のレイテンシ削減を行う。
BEVFusionは基本的にタスクに依存しず、アーキテクチャ上のほとんど変更なしに異なる3D知覚タスクをシームレスにサポートする。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、計算コストは1.9倍である。
関連論文リスト
- CoBEV: Elevating Roadside 3D Object Detection with Depth and Height
Complementarity [35.3050904302819]
我々は、新しいエンドツーエンドのモノクロ3Dオブジェクト検出フレームワークであるComplementary-BEVを開発した。
道路カメラを用いたDAIR-V2X-IとRope3Dの公開3次元検出ベンチマークについて広範な実験を行った。
カメラモデルのAPスコアが初めてDAIR-V2X-Iで80%に達する。
論文 参考訳(メタデータ) (2023-10-04T13:38:53Z) - UniM$^2$AE: Multi-modal Masked Autoencoders with Unified 3D
Representation for 3D Perception in Autonomous Driving [51.37470133438836]
Masked Autoencoders (MAE)は、強力な表現の学習において重要な役割を担い、様々な3D知覚タスクにおいて優れた結果をもたらす。
この研究は、自律運転における統一された表現空間に適したマルチモーダルのMasked Autoencodersに展開する。
画像に固有のセマンティクスとLiDAR点雲の幾何学的複雑さを複雑に結合するために、UniM$2$AEを提案する。
論文 参考訳(メタデータ) (2023-08-21T02:13:40Z) - UniTR: A Unified and Efficient Multi-Modal Transformer for
Bird's-Eye-View Representation [113.35352122662752]
屋外3次元知覚のためのマルチモーダルバックボーンUniTRを提案する。
UniTRは、統一されたモデリングと共有パラメータで様々なモダリティを処理する。
UniTRは基本的にタスクに依存しないバックボーンであり、異なる3D知覚タスクを自然にサポートする。
論文 参考訳(メタデータ) (2023-08-15T12:13:44Z) - SimDistill: Simulated Multi-modal Distillation for BEV 3D Object
Detection [56.24700754048067]
多視点カメラによる3Dオブジェクト検出は低コストで普及しているが、カメラデータのみから正確に3D形状を推定することは依然として困難である。
モデルアーキテクチャと蒸留戦略を慎重に構築し,シミュレートされたマルチモーダル蒸留(SimDistill)法を提案する。
我々のSimDistillは、コスト効率のよいカメラのみの配置を維持しながら、3Dオブジェクト検出のためのより良い特徴表現を学習することができる。
論文 参考訳(メタデータ) (2023-03-29T16:08:59Z) - Multi-Camera Calibration Free BEV Representation for 3D Object Detection [8.085831393926561]
我々は,頑健なBird's Eye View (BEV) 表現のための完全マルチカメラフリートランス (CFT) を提案する。
CFTが設計した位置認識強化(PA)を介してBEVの3D情報をマイニングする
CFTは、カメラパラメータを除去する最初の作業であるnuScenes検出タスクリーダーボードで49.7%のNDSを達成した。
論文 参考訳(メタデータ) (2022-10-31T12:18:08Z) - Center Feature Fusion: Selective Multi-Sensor Fusion of Center-based
Objects [26.59231069298659]
本稿では,自律走行車のためのロバストな3次元物体検出システムを構築するための新しい手法を提案する。
我々は、カメラとLiDARストリームのセンターベースの検出ネットワークを利用して、関連するオブジェクトの位置を識別する。
nuScenesデータセットでは、LiDARのみのベースラインを4.9%のmAPで上回り、他の融合法よりも100倍少ない特徴を融合させる。
論文 参考訳(メタデータ) (2022-09-26T17:51:18Z) - MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth
Seeds for 3D Object Detection [89.26380781863665]
自律運転システムにおける高精度で信頼性の高い3次元物体検出を実現するためには,LiDARとカメラ情報の融合が不可欠である。
近年のアプローチでは、2次元カメラ画像の3次元空間への昇華点によるカメラ特徴のセマンティックな密度の探索が試みられている。
マルチグラニュラリティLiDARとカメラ機能とのマルチスケールなプログレッシブインタラクションに焦点を当てた,新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-07T12:29:29Z) - M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified
Birds-Eye View Representation [145.6041893646006]
M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。
M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
論文 参考訳(メタデータ) (2022-04-11T13:43:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。