論文の概要: Center Feature Fusion: Selective Multi-Sensor Fusion of Center-based
Objects
- arxiv url: http://arxiv.org/abs/2209.12880v2
- Date: Wed, 26 Apr 2023 23:55:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 17:13:59.884105
- Title: Center Feature Fusion: Selective Multi-Sensor Fusion of Center-based
Objects
- Title(参考訳): センター・フィーチャー・フュージョン:センター・ベース・オブジェクトの選択的マルチセンサー・フュージョン
- Authors: Philip Jacobson, Yiyang Zhou, Wei Zhan, Masayoshi Tomizuka, Ming C. Wu
- Abstract要約: 本稿では,自律走行車のためのロバストな3次元物体検出システムを構築するための新しい手法を提案する。
我々は、カメラとLiDARストリームのセンターベースの検出ネットワークを利用して、関連するオブジェクトの位置を識別する。
nuScenesデータセットでは、LiDARのみのベースラインを4.9%のmAPで上回り、他の融合法よりも100倍少ない特徴を融合させる。
- 参考スコア(独自算出の注目度): 26.59231069298659
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Leveraging multi-modal fusion, especially between camera and LiDAR, has
become essential for building accurate and robust 3D object detection systems
for autonomous vehicles. Until recently, point decorating approaches, in which
point clouds are augmented with camera features, have been the dominant
approach in the field. However, these approaches fail to utilize the higher
resolution images from cameras. Recent works projecting camera features to the
bird's-eye-view (BEV) space for fusion have also been proposed, however they
require projecting millions of pixels, most of which only contain background
information. In this work, we propose a novel approach Center Feature Fusion
(CFF), in which we leverage center-based detection networks in both the camera
and LiDAR streams to identify relevant object locations. We then use the
center-based detection to identify the locations of pixel features relevant to
object locations, a small fraction of the total number in the image. These are
then projected and fused in the BEV frame. On the nuScenes dataset, we
outperform the LiDAR-only baseline by 4.9% mAP while fusing up to 100x fewer
features than other fusion methods.
- Abstract(参考訳): カメラとLiDARのマルチモーダル融合の活用は、自動運転車のための正確で堅牢な3Dオブジェクト検出システムを構築する上で欠かせないものとなっている。
最近まで、ポイントデコレーションのアプローチでは、カメラ機能でポイントクラウドが強化され、この分野では主要なアプローチであった。
しかし、これらの手法はカメラの高解像度画像を利用できない。
鳥眼視(BEV)領域にカメラ機能を投影する最近の研究も提案されているが、背景情報のみを含む数百万ピクセルを投影する必要がある。
本研究では,カメラとlidarストリームの両方でセンタベースの検出ネットワークを活用し,関連する物体の位置を識別するアプローチセンタ機能融合(cff)を提案する。
次に、画像中の全数のごく一部であるオブジェクト位置に関連する画素の特徴の位置を特定するために、中心に基づく検出を行う。
これらはBEVフレームに投影され、融合される。
nuScenesデータセットでは、LiDARのみのベースラインを4.9%のmAPで上回り、他の融合法よりも100倍も少ない特徴を持つ。
関連論文リスト
- FlatFusion: Delving into Details of Sparse Transformer-based Camera-LiDAR Fusion for Autonomous Driving [63.96049803915402]
多様なセンサーのモダリティからのデータの統合は、自律運転のシナリオにおいて一般的な方法論となっている。
効率的な点雲変換器の最近の進歩は、スパースフォーマットにおける情報統合の有効性を裏付けている。
本稿では,Transformer を用いた sparse cameraLiDAR 融合における設計選択を包括的に検討する。
論文 参考訳(メタデータ) (2024-08-13T11:46:32Z) - OAFuser: Towards Omni-Aperture Fusion for Light Field Semantic Segmentation [48.828453331724965]
我々は,Omni-Aperture Fusion Model (OAFuser) を提案する。
提案したOAFuserは,すべての評価指標から4つのUrbanLFデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-28T14:43:27Z) - FusionRCNN: LiDAR-Camera Fusion for Two-stage 3D Object Detection [11.962073589763676]
既存の3D検出器は、2段階のパラダイムを採用することで精度を大幅に向上させる。
特に遠く離れた地点では、点雲の広がりは、LiDARのみの精製モジュールがオブジェクトを正確に認識し、配置することを困難にしている。
We propose a novel multi-modality two-stage approach called FusionRCNN, which is effective and efficient fuses point clouds and camera image in the Regions of Interest(RoI)。
FusionRCNNは、強力なSECONDベースラインを6.14%のmAPで大幅に改善し、競合する2段階アプローチよりも優れている。
論文 参考訳(メタデータ) (2022-09-22T02:07:25Z) - MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth
Seeds for 3D Object Detection [89.26380781863665]
自律運転システムにおける高精度で信頼性の高い3次元物体検出を実現するためには,LiDARとカメラ情報の融合が不可欠である。
近年のアプローチでは、2次元カメラ画像の3次元空間への昇華点によるカメラ特徴のセマンティックな密度の探索が試みられている。
マルチグラニュラリティLiDARとカメラ機能とのマルチスケールなプログレッシブインタラクションに焦点を当てた,新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-07T12:29:29Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation [105.96557764248846]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z) - VPFNet: Voxel-Pixel Fusion Network for Multi-class 3D Object Detection [5.12292602924464]
本稿では,Voxel-Pixel Fusion Network (VPFNet) という,核融合に基づく3次元物体検出ネットワークを提案する。
提案手法は,マルチレベル難易度下でのマルチクラス3Dオブジェクト検出タスクに対して,KITTIベンチマークを用いて評価する。
平均平均精度(mAP)において、すべての最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-11-01T14:17:09Z) - CenterFusion: Center-based Radar and Camera Fusion for 3D Object
Detection [8.797434238081372]
本研究では,レーダデータとカメラデータを併用して3次元物体検出を行うミドルフュージョン手法を提案する。
CenterFusionと呼ばれる私たちのアプローチは、まず中心点検出ネットワークを使ってオブジェクトを検出します。
そして、新しいフラストラム法を用いて鍵データアソシエーション問題を解決する。
論文 参考訳(メタデータ) (2020-11-10T00:20:23Z) - RoIFusion: 3D Object Detection from LiDAR and Vision [7.878027048763662]
本稿では,3次元関心領域(RoI)の集合を点雲から対応する画像の2次元ロIに投影することで,新しい融合アルゴリズムを提案する。
提案手法は,KITTI 3Dオブジェクト検出課題ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2020-09-09T20:23:27Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。