論文の概要: DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection
- arxiv url: http://arxiv.org/abs/2203.08195v1
- Date: Tue, 15 Mar 2022 18:46:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 14:51:37.250331
- Title: DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection
- Title(参考訳): DeepFusion:マルチモード3Dオブジェクト検出のためのライダーカメラディープフュージョン
- Authors: Yingwei Li, Adams Wei Yu, Tianjian Meng, Ben Caine, Jiquan Ngiam,
Daiyi Peng, Junyang Shen, Bo Wu, Yifeng Lu, Denny Zhou, Quoc V. Le, Alan
Yuille, Mingxing Tan
- Abstract要約: ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
- 参考スコア(独自算出の注目度): 83.18142309597984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lidars and cameras are critical sensors that provide complementary
information for 3D detection in autonomous driving. While prevalent multi-modal
methods simply decorate raw lidar point clouds with camera features and feed
them directly to existing 3D detection models, our study shows that fusing
camera features with deep lidar features instead of raw points, can lead to
better performance. However, as those features are often augmented and
aggregated, a key challenge in fusion is how to effectively align the
transformed features from two modalities. In this paper, we propose two novel
techniques: InverseAug that inverses geometric-related augmentations, e.g.,
rotation, to enable accurate geometric alignment between lidar points and image
pixels, and LearnableAlign that leverages cross-attention to dynamically
capture the correlations between image and lidar features during fusion. Based
on InverseAug and LearnableAlign, we develop a family of generic multi-modal 3D
detection models named DeepFusion, which is more accurate than previous
methods. For example, DeepFusion improves PointPillars, CenterPoint, and 3D-MAN
baselines on Pedestrian detection for 6.7, 8.9, and 6.2 LEVEL_2 APH,
respectively. Notably, our models achieve state-of-the-art performance on Waymo
Open Dataset, and show strong model robustness against input corruptions and
out-of-distribution data. Code will be publicly available at
https://github.com/tensorflow/lingvo/tree/master/lingvo/.
- Abstract(参考訳): ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
一般的なマルチモーダル手法は、単に生のlidarポイントの雲をカメラ機能でデコレートし、既存の3d検出モデルに直接供給する。
しかし、これらの機能はしばしば拡張され集約されるため、融合における重要な課題は、変換された機能を2つのモードから効果的に整列する方法である。
本稿では,2つの新しい手法を提案する。例えば回転などの幾何学的拡張を反転させてライダー点と画像画素間の正確な幾何的アライメントを実現するInverseAugと,融合時の画像特徴とライダー特徴との相関を動的に捉えるLearningableAlignである。
InverseAug と LearnableAlign に基づいて,DeepFusion という,従来の手法よりも高精度な汎用マルチモーダル3次元検出モデル群を開発した。
例えば、DeepFusionは、それぞれ6.7、8.9、および6.2 LEVEL_2 APHの歩行者検出に基づいて、PointPillars、CenterPoint、および3D-MANベースラインを改善している。
特に,waymo open datasetにおける最先端のパフォーマンスを実現し,入力破損や分散データに対する強固なモデルロバスト性を示す。
コードはhttps://github.com/tensorflow/lingvo/tree/master/lingvo/で公開される。
関連論文リスト
- Progressive Multi-Modal Fusion for Robust 3D Object Detection [12.048303829428452]
既存の方法は、バードアイビュー(BEV)とパースペクティブビュー(PV)の両方のモードから特徴を投影することで、単一ビューでセンサフュージョンを実行する。
本稿では,中間クエリレベルとオブジェクトクエリレベルの両方で,BEVとPVの両方の機能を組み合わせたプログレッシブフュージョンフレームワークProFusion3Dを提案する。
我々のアーキテクチャは、局所的およびグローバルな特徴を融合させ、3次元オブジェクト検出の堅牢性を高める。
論文 参考訳(メタデータ) (2024-10-09T22:57:47Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Multi-Modal 3D Object Detection by Box Matching [109.43430123791684]
マルチモーダル3次元検出のためのボックスマッチング(FBMNet)による新しいフュージョンネットワークを提案する。
3Dオブジェクトと2Dオブジェクトの提案を学習することで、ROI特徴を組み合わせることで、検出のための融合を効果的に行うことができる。
論文 参考訳(メタデータ) (2023-05-12T18:08:51Z) - PathFusion: Path-consistent Lidar-Camera Deep Feature Fusion [30.803450612746403]
セマンティック・コヒーレントなLiDAR-カメラ・ディープ・フィーチャー・フュージョンのアライメントを可能にするソリューションとしてPathFusionを提案する。
PathFusionは、ネットワーク内の複数の段階におけるパス一貫性の損失を導入し、2Dバックボーンとその融合パスを奨励する。
nuScenes テスト分割におけるmAPの1.6%以上の改善は, テスト時間データ拡張と相容れない。
論文 参考訳(メタデータ) (2022-12-12T20:58:54Z) - Multi-Sem Fusion: Multimodal Semantic Fusion for 3D Object Detection [11.575945934519442]
LiDARとカメラ融合技術は、自律運転において3次元物体検出を実現することを約束している。
多くのマルチモーダルな3Dオブジェクト検出フレームワークは、2D画像からのセマンティック知識を3D LiDARポイントクラウドに統合する。
本稿では2次元画像と3次元ポイントシーン解析結果の両方から意味情報を融合する汎用多モード融合フレームワークであるMulti-Sem Fusion(MSF)を提案する。
論文 参考訳(メタデータ) (2022-12-10T10:54:41Z) - 3D Dual-Fusion: Dual-Domain Dual-Query Camera-LiDAR Fusion for 3D Object
Detection [13.068266058374775]
我々は3Dデュアルフュージョンと呼ばれる新しいカメラ-LiDAR融合アーキテクチャを提案する。
提案手法は、カメラビューと3次元ボクセルビュードメインの特徴を融合させ、変形可能な注意を通して相互作用をモデル化する。
実験の結果,提案したカメラ-LiDAR融合アーキテクチャは,KITTIおよびnuScenesデータセット上での競合性能を達成した。
論文 参考訳(メタデータ) (2022-11-24T11:00:50Z) - MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth
Seeds for 3D Object Detection [89.26380781863665]
自律運転システムにおける高精度で信頼性の高い3次元物体検出を実現するためには,LiDARとカメラ情報の融合が不可欠である。
近年のアプローチでは、2次元カメラ画像の3次元空間への昇華点によるカメラ特徴のセマンティックな密度の探索が試みられている。
マルチグラニュラリティLiDARとカメラ機能とのマルチスケールなプログレッシブインタラクションに焦点を当てた,新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-07T12:29:29Z) - VPFNet: Improving 3D Object Detection with Virtual Point based LiDAR and
Stereo Data Fusion [62.24001258298076]
VPFNetは、ポイントクラウドとイメージデータを仮想のポイントで巧みに調整し集約する新しいアーキテクチャである。
当社のVPFNetは,KITTIテストセットで83.21%の中等度3D AP,91.86%中等度BEV APを達成し,2021年5月21日以来の1位となった。
論文 参考訳(メタデータ) (2021-11-29T08:51:20Z) - RoIFusion: 3D Object Detection from LiDAR and Vision [7.878027048763662]
本稿では,3次元関心領域(RoI)の集合を点雲から対応する画像の2次元ロIに投影することで,新しい融合アルゴリズムを提案する。
提案手法は,KITTI 3Dオブジェクト検出課題ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2020-09-09T20:23:27Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。