論文の概要: DecoratingFusion: A LiDAR-Camera Fusion Network with the Combination of Point-level and Feature-level Fusion
- arxiv url: http://arxiv.org/abs/2501.00220v1
- Date: Tue, 31 Dec 2024 02:13:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:16:01.200938
- Title: DecoratingFusion: A LiDAR-Camera Fusion Network with the Combination of Point-level and Feature-level Fusion
- Title(参考訳): デコレートフュージョン:ポイントレベルと特徴レベル融合を組み合わせたLiDAR-Camera核融合ネットワーク
- Authors: Zixuan Yin, Han Sun, Ningzhong Liu, Huiyu Zhou, Jiaquan Shen,
- Abstract要約: ライダーとカメラは自動運転において重要な役割を担い、3D検出のための補完的な情報を提供する。
最先端の融合法は機能レベルでそれらを統合するが、それらは主に点雲と画像の間の学習されたソフトな関連に依存している。
本稿では,キャリブレーション行列によって確立されたハードアソシエーションを用いて,特徴レベル融合と点レベル融合を結合する。
- 参考スコア(独自算出の注目度): 17.629631530126613
- License:
- Abstract: Lidars and cameras play essential roles in autonomous driving, offering complementary information for 3D detection. The state-of-the-art fusion methods integrate them at the feature level, but they mostly rely on the learned soft association between point clouds and images, which lacks interpretability and neglects the hard association between them. In this paper, we combine feature-level fusion with point-level fusion, using hard association established by the calibration matrices to guide the generation of object queries. Specifically, in the early fusion stage, we use the 2D CNN features of images to decorate the point cloud data, and employ two independent sparse convolutions to extract the decorated point cloud features. In the mid-level fusion stage, we initialize the queries with a center heatmap and embed the predicted class labels as auxiliary information into the queries, making the initial positions closer to the actual centers of the targets. Extensive experiments conducted on two popular datasets, i.e. KITTI, Waymo, demonstrate the superiority of DecoratingFusion.
- Abstract(参考訳): ライダーとカメラは自動運転において重要な役割を担い、3D検出のための補完的な情報を提供する。
最先端の融合法は特徴レベルでそれらを統合しているが、それらは主に点雲と画像の間の学習されたソフトな関連に依存しており、解釈可能性に欠け、それら間のハードな関係を無視している。
本稿では,キャリブレーション行列によって確立されたハードアソシエーションを用いて,特徴レベルの融合と点レベルの融合を組み合わせることにより,オブジェクトクエリの生成をガイドする。
具体的には、初期の融合段階では、画像の2D CNN特徴を用いて点雲データをデコレートし、2つの独立したスパース畳み込みを用いて装飾された点雲の特徴を抽出する。
中級核融合の段階では、中央のヒートマップでクエリを初期化し、予測されたクラスラベルを補助情報としてクエリに埋め込み、ターゲットの実際の中心に近い位置に初期位置を配置する。
一般的な2つのデータセット、すなわちKITTI、Waymoで実施された大規模な実験は、DecoratingFusionの優位性を実証している。
関連論文リスト
- FlatFusion: Delving into Details of Sparse Transformer-based Camera-LiDAR Fusion for Autonomous Driving [63.96049803915402]
多様なセンサーのモダリティからのデータの統合は、自律運転のシナリオにおいて一般的な方法論となっている。
効率的な点雲変換器の最近の進歩は、スパースフォーマットにおける情報統合の有効性を裏付けている。
本稿では,Transformer を用いた sparse cameraLiDAR 融合における設計選択を包括的に検討する。
論文 参考訳(メタデータ) (2024-08-13T11:46:32Z) - FGFusion: Fine-Grained Lidar-Camera Fusion for 3D Object Detection [18.91387885960839]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
最も一般的な方法は、3Dポイントクラウドとカメライメージを徐々にダウンスケールし、ハイレベルな機能を融合させる。
画像と点雲のマルチスケール特徴をフル活用したファイングレードLidar-Camera Fusion (FGFusion)を提案する。
論文 参考訳(メタデータ) (2023-09-21T06:24:59Z) - FFPA-Net: Efficient Feature Fusion with Projection Awareness for 3D
Object Detection [19.419030878019974]
構造化されていない3D点雲は2D平面に充填され、3D点雲はプロジェクション対応の畳み込み層を用いて高速に抽出される。
データ前処理において、異なるセンサ信号間の対応するインデックスを予め設定する。
2つの新しいプラグアンドプレイ融合モジュールLiCamFuseとBiLiCamFuseが提案されている。
論文 参考訳(メタデータ) (2022-09-15T16:13:19Z) - TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with
Transformers [49.689566246504356]
そこで本研究では,LiDAR-カメラ融合に対するソフトアソシエーション機構による堅牢な解であるTransFusionを提案する。
TransFusionは大規模データセット上で最先端のパフォーマンスを実現する。
提案手法を3次元トラッキングタスクに拡張し,nuScenesトラッキングのリーダーボードにおける第1位を達成する。
論文 参考訳(メタデータ) (2022-03-22T07:15:13Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z) - Similarity-Aware Fusion Network for 3D Semantic Segmentation [87.51314162700315]
本研究では,3次元セマンティックセグメンテーションのための2次元画像と3次元点雲を適応的に融合する類似性認識融合ネットワーク(SAFNet)を提案する。
我々は、入力とバックプロジェクションされた(2Dピクセルから)点雲の間の幾何学的および文脈的類似性を初めて学習する、後期融合戦略を採用している。
SAFNetは、様々なデータ完全性にまたがって、既存の最先端の核融合ベースのアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2021-07-04T09:28:18Z) - Volumetric Propagation Network: Stereo-LiDAR Fusion for Long-Range Depth
Estimation [81.08111209632501]
長距離深度推定のための幾何認識型ステレオLiDAR融合ネットワークを提案する。
ステレオ画像の対応を統一した3Dボリューム空間で導くためのキューとして、スパースで正確な点群を活用します。
我々のネットワークは,KITTIおよびVirtual-KITTIデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-03-24T03:24:46Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。