論文の概要: From One to Many: Dynamic Cross Attention Networks for LiDAR and Camera
Fusion
- arxiv url: http://arxiv.org/abs/2209.12254v1
- Date: Sun, 25 Sep 2022 16:10:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 16:24:43.989308
- Title: From One to Many: Dynamic Cross Attention Networks for LiDAR and Camera
Fusion
- Title(参考訳): 1対多:LiDARとカメラフュージョンのための動的クロスアテンションネットワーク
- Authors: Rui Wan, Shuangjie Xu, Wei Wu, Xiaoyi Zou, Tongyi Cao
- Abstract要約: 既存の融合法では、キャリブレーションに基づいて、各3Dポイントを1つの投影された画像ピクセルに調整する傾向がある。
本稿では,動的クロスアテンション(DCA)モジュールを提案する。
Dynamic Cross Attention Network (DCAN) という名称の核融合アーキテクチャは、マルチレベルイメージ機能を活用し、ポイントクラウドの複数の表現に適応する。
- 参考スコア(独自算出の注目度): 12.792769704561024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LiDAR and cameras are two complementary sensors for 3D perception in
autonomous driving. LiDAR point clouds have accurate spatial and geometry
information, while RGB images provide textural and color data for context
reasoning. To exploit LiDAR and cameras jointly, existing fusion methods tend
to align each 3D point to only one projected image pixel based on calibration,
namely one-to-one mapping. However, the performance of these approaches highly
relies on the calibration quality, which is sensitive to the temporal and
spatial synchronization of sensors. Therefore, we propose a Dynamic Cross
Attention (DCA) module with a novel one-to-many cross-modality mapping that
learns multiple offsets from the initial projection towards the neighborhood
and thus develops tolerance to calibration error. Moreover, a \textit{dynamic
query enhancement} is proposed to perceive the model-independent calibration,
which further strengthens DCA's tolerance to the initial misalignment. The
whole fusion architecture named Dynamic Cross Attention Network (DCAN) exploits
multi-level image features and adapts to multiple representations of point
clouds, which allows DCA to serve as a plug-in fusion module. Extensive
experiments on nuScenes and KITTI prove DCA's effectiveness. The proposed DCAN
outperforms state-of-the-art methods on the nuScenes detection challenge.
- Abstract(参考訳): LiDARとカメラは、自動運転における3D知覚のための2つの補完センサーである。
LiDAR点雲は正確な空間情報と幾何学情報を持ち、RGB画像はコンテキスト推論のためのテクスチャデータとカラーデータを提供する。
LiDARとカメラを併用するために、既存の融合法は、キャリブレーション、すなわち1対1のマッピングに基づいて、各3Dポイントを1つの投影された画像ピクセルに調整する傾向がある。
しかし,これらの手法の性能は,センサの時間的・空間的同期に敏感なキャリブレーション品質に大きく依存している。
そこで本稿では,初期投影から近傍への複数のオフセットを学習し,キャリブレーションエラーに対する耐性を向上する,新しい1対多の相互モダリティマッピングを備えた動的クロスアテンション(DCA)モジュールを提案する。
さらに、モデル非依存のキャリブレーションを知覚するために \textit{dynamic query enhancement} が提案されている。
Dynamic Cross Attention Network (DCAN)という名前の核融合アーキテクチャは、マルチレベルイメージ機能を活用し、ポイントクラウドの複数の表現に適応することで、DCAはプラグイン融合モジュールとして機能する。
nuScenesとKITTIに関する大規模な実験は、DCAの有効性を証明している。
提案したDCANは、nuScenes検出問題において最先端の手法より優れている。
関連論文リスト
- LiOn-XA: Unsupervised Domain Adaptation via LiDAR-Only Cross-Modal Adversarial Training [61.26381389532653]
LiOn-XAは、LiDAR-Only Cross-Modal (X)学習と3D LiDARポイントクラウドセマンティックセマンティックセグメンテーションのためのAdversarial Trainingを組み合わせた、教師なしドメイン適応(UDA)アプローチである。
3つの現実的適応シナリオに関する実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-10-21T09:50:17Z) - LiDAR-Camera Panoptic Segmentation via Geometry-Consistent and
Semantic-Aware Alignment [63.83894701779067]
我々は,最初のLiDAR-Camera Panoptic NetworkであるLCPSを提案する。
提案手法では,LiDAR-Camera融合を3段階に分けて行う。
我々の融合戦略は、NuScenesデータセット上のLiDARのみのベースラインに対して、約6.9%のPQ性能を改善する。
論文 参考訳(メタデータ) (2023-08-03T10:57:58Z) - Multi-Modal 3D Object Detection by Box Matching [109.43430123791684]
マルチモーダル3次元検出のためのボックスマッチング(FBMNet)による新しいフュージョンネットワークを提案する。
3Dオブジェクトと2Dオブジェクトの提案を学習することで、ROI特徴を組み合わせることで、検出のための融合を効果的に行うことができる。
論文 参考訳(メタデータ) (2023-05-12T18:08:51Z) - ImLiDAR: Cross-Sensor Dynamic Message Propagation Network for 3D Object
Detection [20.44294678711783]
我々は,カメラ画像とLiDAR点雲のマルチスケール特徴を段階的に融合させることにより,センサ間差を狭める新しい3ODパラダイムであるImLiDARを提案する。
まず,マルチスケール画像とポイント特徴の最良の組み合わせを目的とした,クロスセンサ動的メッセージ伝搬モジュールを提案する。
第二に、効率的なセットベース検出器を設計できるような、直接セット予測問題を提起する。
論文 参考訳(メタデータ) (2022-11-17T13:31:23Z) - FusionRCNN: LiDAR-Camera Fusion for Two-stage 3D Object Detection [11.962073589763676]
既存の3D検出器は、2段階のパラダイムを採用することで精度を大幅に向上させる。
特に遠く離れた地点では、点雲の広がりは、LiDARのみの精製モジュールがオブジェクトを正確に認識し、配置することを困難にしている。
We propose a novel multi-modality two-stage approach called FusionRCNN, which is effective and efficient fuses point clouds and camera image in the Regions of Interest(RoI)。
FusionRCNNは、強力なSECONDベースラインを6.14%のmAPで大幅に改善し、競合する2段階アプローチよりも優れている。
論文 参考訳(メタデータ) (2022-09-22T02:07:25Z) - FFPA-Net: Efficient Feature Fusion with Projection Awareness for 3D
Object Detection [19.419030878019974]
構造化されていない3D点雲は2D平面に充填され、3D点雲はプロジェクション対応の畳み込み層を用いて高速に抽出される。
データ前処理において、異なるセンサ信号間の対応するインデックスを予め設定する。
2つの新しいプラグアンドプレイ融合モジュールLiCamFuseとBiLiCamFuseが提案されている。
論文 参考訳(メタデータ) (2022-09-15T16:13:19Z) - MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth
Seeds for 3D Object Detection [89.26380781863665]
自律運転システムにおける高精度で信頼性の高い3次元物体検出を実現するためには,LiDARとカメラ情報の融合が不可欠である。
近年のアプローチでは、2次元カメラ画像の3次元空間への昇華点によるカメラ特徴のセマンティックな密度の探索が試みられている。
マルチグラニュラリティLiDARとカメラ機能とのマルチスケールなプログレッシブインタラクションに焦点を当てた,新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-07T12:29:29Z) - Bridging the View Disparity of Radar and Camera Features for Multi-modal
Fusion 3D Object Detection [6.959556180268547]
本稿では3次元物体検出にミリ波レーダとカメラセンサ融合を用いる方法について述べる。
より優れた特徴表現のための鳥眼ビュー(BEV)における特徴レベル融合を実現する新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-25T13:21:37Z) - TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with
Transformers [49.689566246504356]
そこで本研究では,LiDAR-カメラ融合に対するソフトアソシエーション機構による堅牢な解であるTransFusionを提案する。
TransFusionは大規模データセット上で最先端のパフォーマンスを実現する。
提案手法を3次元トラッキングタスクに拡張し,nuScenesトラッキングのリーダーボードにおける第1位を達成する。
論文 参考訳(メタデータ) (2022-03-22T07:15:13Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z) - Spatiotemporal Camera-LiDAR Calibration: A Targetless and Structureless
Approach [32.15405927679048]
ターゲットレスで構造のないカメラ-DARキャリブレーション法を提案する。
本手法は, 時間的パラメータの初期調整を必要としないような, 閉形式解と非構造束を結合する。
提案手法の精度とロバスト性をシミュレーションおよび実データ実験により実証する。
論文 参考訳(メタデータ) (2020-01-17T07:25:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。