論文の概要: TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with
Transformers
- arxiv url: http://arxiv.org/abs/2203.11496v1
- Date: Tue, 22 Mar 2022 07:15:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-23 13:54:32.683025
- Title: TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with
Transformers
- Title(参考訳): トランスフォーマーを用いた3次元物体検出のためのロバストlidarカメラ融合
- Authors: Xuyang Bai, Zeyu Hu, Xinge Zhu, Qingqiu Huang, Yilun Chen, Hongbo Fu,
Chiew-Lan Tai
- Abstract要約: そこで本研究では,LiDAR-カメラ融合に対するソフトアソシエーション機構による堅牢な解であるTransFusionを提案する。
TransFusionは大規模データセット上で最先端のパフォーマンスを実現する。
提案手法を3次元トラッキングタスクに拡張し,nuScenesトラッキングのリーダーボードにおける第1位を達成する。
- 参考スコア(独自算出の注目度): 49.689566246504356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LiDAR and camera are two important sensors for 3D object detection in
autonomous driving. Despite the increasing popularity of sensor fusion in this
field, the robustness against inferior image conditions, e.g., bad illumination
and sensor misalignment, is under-explored. Existing fusion methods are easily
affected by such conditions, mainly due to a hard association of LiDAR points
and image pixels, established by calibration matrices. We propose TransFusion,
a robust solution to LiDAR-camera fusion with a soft-association mechanism to
handle inferior image conditions. Specifically, our TransFusion consists of
convolutional backbones and a detection head based on a transformer decoder.
The first layer of the decoder predicts initial bounding boxes from a LiDAR
point cloud using a sparse set of object queries, and its second decoder layer
adaptively fuses the object queries with useful image features, leveraging both
spatial and contextual relationships. The attention mechanism of the
transformer enables our model to adaptively determine where and what
information should be taken from the image, leading to a robust and effective
fusion strategy. We additionally design an image-guided query initialization
strategy to deal with objects that are difficult to detect in point clouds.
TransFusion achieves state-of-the-art performance on large-scale datasets. We
provide extensive experiments to demonstrate its robustness against degenerated
image quality and calibration errors. We also extend the proposed method to the
3D tracking task and achieve the 1st place in the leaderboard of nuScenes
tracking, showing its effectiveness and generalization capability.
- Abstract(参考訳): LiDARとカメラは、自動運転における3Dオブジェクト検出のための2つの重要なセンサーである。
この分野でのセンサフュージョンの人気は高まっているが、劣等な画像条件(例えば、悪い照明やセンサーの誤認)に対する堅牢性は過小評価されている。
既存の融合法は, キャリブレーション行列によって確立されたLiDAR点と画像画素のハードな関連により, このような条件で容易に影響を受ける。
そこで本研究では,LiDAR-カメラ融合に対するソフトアソシエーション機構による堅牢な解であるTransFusionを提案する。
具体的には、TransFusionは、畳み込みバックボーンと、トランスフォーマーデコーダに基づく検出ヘッドで構成される。
デコーダの第1層は、オブジェクトクエリのスパースセットを使用して、lidarポイントクラウドから初期バウンディングボックスを予測し、第2のデコーダ層は、空間的および文脈的な関係を利用して、オブジェクトクエリと有用な画像特徴を適応的に融合する。
トランスの注意機構により,画像からどの情報を取り出すべきかを適応的に決定し,ロバストで効果的な融合戦略を実現する。
さらに,ポイントクラウドでは検出が難しいオブジェクトを扱うために,画像誘導クエリ初期化戦略も設計した。
TransFusionは大規模データセット上で最先端のパフォーマンスを実現する。
画像品質劣化と校正誤差に対するロバスト性を示すため,広範な実験を行った。
また,提案手法を3次元追跡タスクに拡張し,nuscenes追跡のリーダボードにおいて,その効果と一般化能力を示す第1位を達成する。
関連論文リスト
- FusionViT: Hierarchical 3D Object Detection via LiDAR-Camera Vision
Transformer Fusion [8.168523242105763]
本稿では,新しい視覚変換器を用いた3次元物体検出モデルFusionViTを紹介する。
我々のFusionViTモデルは最先端の性能を達成でき、既存のベースライン法より優れています。
論文 参考訳(メタデータ) (2023-11-07T00:12:01Z) - Multi-Modal 3D Object Detection by Box Matching [109.43430123791684]
マルチモーダル3次元検出のためのボックスマッチング(FBMNet)による新しいフュージョンネットワークを提案する。
3Dオブジェクトと2Dオブジェクトの提案を学習することで、ROI特徴を組み合わせることで、検出のための融合を効果的に行うことができる。
論文 参考訳(メタデータ) (2023-05-12T18:08:51Z) - TransCAR: Transformer-based Camera-And-Radar Fusion for 3D Object
Detection [13.986963122264633]
TransCARはトランスフォーマーベースの3Dオブジェクト検出のためのカメラとレーダーの融合ソリューションである。
我々のモデルは、設定されたハンガリー損失を用いてクエリ毎のバウンディングボックスを推定する。
論文 参考訳(メタデータ) (2023-04-30T05:35:03Z) - SemanticBEVFusion: Rethink LiDAR-Camera Fusion in Unified Bird's-Eye
View Representation for 3D Object Detection [14.706717531900708]
LiDARとカメラは、自律運転における3Dオブジェクト検出に不可欠な2つのセンサーである。
近年の手法では,LiDAR点雲にカメラ機能を持たせた点レベルの融合に焦点が当てられている。
We present SemanticBEVFusion to deep fuse camera features with LiDAR features in an unified BEV representation。
論文 参考訳(メタデータ) (2022-12-09T05:48:58Z) - 3D Dual-Fusion: Dual-Domain Dual-Query Camera-LiDAR Fusion for 3D Object
Detection [13.068266058374775]
我々は3Dデュアルフュージョンと呼ばれる新しいカメラ-LiDAR融合アーキテクチャを提案する。
提案手法は、カメラビューと3次元ボクセルビュードメインの特徴を融合させ、変形可能な注意を通して相互作用をモデル化する。
実験の結果,提案したカメラ-LiDAR融合アーキテクチャは,KITTIおよびnuScenesデータセット上での競合性能を達成した。
論文 参考訳(メタデータ) (2022-11-24T11:00:50Z) - ImLiDAR: Cross-Sensor Dynamic Message Propagation Network for 3D Object
Detection [20.44294678711783]
我々は,カメラ画像とLiDAR点雲のマルチスケール特徴を段階的に融合させることにより,センサ間差を狭める新しい3ODパラダイムであるImLiDARを提案する。
まず,マルチスケール画像とポイント特徴の最良の組み合わせを目的とした,クロスセンサ動的メッセージ伝搬モジュールを提案する。
第二に、効率的なセットベース検出器を設計できるような、直接セット予測問題を提起する。
論文 参考訳(メタデータ) (2022-11-17T13:31:23Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z) - LIF-Seg: LiDAR and Camera Image Fusion for 3D LiDAR Semantic
Segmentation [78.74202673902303]
本稿では,LiDAR分割のための粗大なLiDARとカメラフュージョンベースネットワーク(LIF-Seg)を提案する。
提案手法は,画像の文脈情報を完全に活用し,単純だが効果的な早期融合戦略を導入する。
これら2つのコンポーネントの協力により、効果的なカメラ-LiDAR融合が成功する。
論文 参考訳(メタデータ) (2021-08-17T08:53:11Z) - Perception-aware Multi-sensor Fusion for 3D LiDAR Semantic Segmentation [59.42262859654698]
3Dセマンティックセグメンテーションは、自動運転やロボット工学など、多くのアプリケーションにおいてシーン理解において重要である。
既存の融合法は、2つのモードの差が大きいため、有望な性能を達成できない。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。