論文の概要: SemanticBEVFusion: Rethink LiDAR-Camera Fusion in Unified Bird's-Eye
View Representation for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2212.04675v1
- Date: Fri, 9 Dec 2022 05:48:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 15:12:44.826538
- Title: SemanticBEVFusion: Rethink LiDAR-Camera Fusion in Unified Bird's-Eye
View Representation for 3D Object Detection
- Title(参考訳): semanticbevfusion: 3dオブジェクト検出のためのunified bird's-eye view表現におけるlidarカメラ融合の再検討
- Authors: Qi Jiang, Hao Sun, Xi Zhang
- Abstract要約: LiDARとカメラは、自律運転における3Dオブジェクト検出に不可欠な2つのセンサーである。
近年の手法では,LiDAR点雲にカメラ機能を持たせた点レベルの融合に焦点が当てられている。
We present SemanticBEVFusion to deep fuse camera features with LiDAR features in an unified BEV representation。
- 参考スコア(独自算出の注目度): 14.706717531900708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LiDAR and camera are two essential sensors for 3D object detection in
autonomous driving. LiDAR provides accurate and reliable 3D geometry
information while the camera provides rich texture with color. Despite the
increasing popularity of fusing these two complementary sensors, the challenge
remains in how to effectively fuse 3D LiDAR point cloud with 2D camera images.
Recent methods focus on point-level fusion which paints the LiDAR point cloud
with camera features in the perspective view or bird's-eye view (BEV)-level
fusion which unifies multi-modality features in the BEV representation. In this
paper, we rethink these previous fusion strategies and analyze their
information loss and influences on geometric and semantic features. We present
SemanticBEVFusion to deeply fuse camera features with LiDAR features in a
unified BEV representation while maintaining per-modality strengths for 3D
object detection. Our method achieves state-of-the-art performance on the
large-scale nuScenes dataset, especially for challenging distant objects. The
code will be made publicly available.
- Abstract(参考訳): LiDARとカメラは、自動運転における3Dオブジェクト検出に不可欠な2つのセンサーである。
LiDARは正確な3D幾何学情報を提供し、カメラは色で豊かなテクスチャを提供する。
これら2つの補完センサーを融合させる人気は高まっているが、3D LiDARポイントクラウドを2Dカメラ画像で効果的に融合する方法には課題がある。
近年の手法では、lidarポイントクラウドに視点ビューのカメラ機能や、bev表現のマルチモダリティ機能を統一したbird's-eye view(bev)レベルの融合に焦点をあてている。
本稿では,これらの融合戦略を再考し,それらの情報損失と幾何学的特徴および意味的特徴に与える影響を分析する。
本稿では,3次元物体検出のためのモダリティ毎の強度を維持しつつ,LiDAR特徴を統一されたBEV表現に深く融合させるセマンティックBEVFusionを提案する。
提案手法は,大規模なnuScenesデータセット上での最先端性能を実現する。
コードは公開される予定だ。
関連論文リスト
- SimpleBEV: Improved LiDAR-Camera Fusion Architecture for 3D Object Detection [15.551625571158056]
高精度な3次元物体検出のためのLiDARカメラ融合フレームワークSimpleBEVを提案する。
提案手法は, nuScenesデータセット上で77.6%のNDS精度を実現し, 3次元物体検出トラックにおける優れた性能を示す。
論文 参考訳(メタデータ) (2024-11-08T02:51:39Z) - VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [80.62052650370416]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。
本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-04-15T03:12:12Z) - MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth
Seeds for 3D Object Detection [89.26380781863665]
自律運転システムにおける高精度で信頼性の高い3次元物体検出を実現するためには,LiDARとカメラ情報の融合が不可欠である。
近年のアプローチでは、2次元カメラ画像の3次元空間への昇華点によるカメラ特徴のセマンティックな密度の探索が試みられている。
マルチグラニュラリティLiDARとカメラ機能とのマルチスケールなプログレッシブインタラクションに焦点を当てた,新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-07T12:29:29Z) - Bridging the View Disparity of Radar and Camera Features for Multi-modal
Fusion 3D Object Detection [6.959556180268547]
本稿では3次元物体検出にミリ波レーダとカメラセンサ融合を用いる方法について述べる。
より優れた特徴表現のための鳥眼ビュー(BEV)における特徴レベル融合を実現する新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-25T13:21:37Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with
Transformers [49.689566246504356]
そこで本研究では,LiDAR-カメラ融合に対するソフトアソシエーション機構による堅牢な解であるTransFusionを提案する。
TransFusionは大規模データセット上で最先端のパフォーマンスを実現する。
提案手法を3次元トラッキングタスクに拡張し,nuScenesトラッキングのリーダーボードにおける第1位を達成する。
論文 参考訳(メタデータ) (2022-03-22T07:15:13Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z) - RoIFusion: 3D Object Detection from LiDAR and Vision [7.878027048763662]
本稿では,3次元関心領域(RoI)の集合を点雲から対応する画像の2次元ロIに投影することで,新しい融合アルゴリズムを提案する。
提案手法は,KITTI 3Dオブジェクト検出課題ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2020-09-09T20:23:27Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z) - 3D-CVF: Generating Joint Camera and LiDAR Features Using Cross-View
Spatial Feature Fusion for 3D Object Detection [10.507404260449333]
本稿では,3次元物体検出のためのカメラとLiDARセンサの融合アーキテクチャを提案する。
提案した3D-CVFは,KITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-04-27T08:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。