論文の概要: TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with
Transformers
- arxiv url: http://arxiv.org/abs/2203.11496v1
- Date: Tue, 22 Mar 2022 07:15:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-23 13:54:32.683025
- Title: TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with
Transformers
- Title(参考訳): トランスフォーマーを用いた3次元物体検出のためのロバストlidarカメラ融合
- Authors: Xuyang Bai, Zeyu Hu, Xinge Zhu, Qingqiu Huang, Yilun Chen, Hongbo Fu,
Chiew-Lan Tai
- Abstract要約: そこで本研究では,LiDAR-カメラ融合に対するソフトアソシエーション機構による堅牢な解であるTransFusionを提案する。
TransFusionは大規模データセット上で最先端のパフォーマンスを実現する。
提案手法を3次元トラッキングタスクに拡張し,nuScenesトラッキングのリーダーボードにおける第1位を達成する。
- 参考スコア(独自算出の注目度): 49.689566246504356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LiDAR and camera are two important sensors for 3D object detection in
autonomous driving. Despite the increasing popularity of sensor fusion in this
field, the robustness against inferior image conditions, e.g., bad illumination
and sensor misalignment, is under-explored. Existing fusion methods are easily
affected by such conditions, mainly due to a hard association of LiDAR points
and image pixels, established by calibration matrices. We propose TransFusion,
a robust solution to LiDAR-camera fusion with a soft-association mechanism to
handle inferior image conditions. Specifically, our TransFusion consists of
convolutional backbones and a detection head based on a transformer decoder.
The first layer of the decoder predicts initial bounding boxes from a LiDAR
point cloud using a sparse set of object queries, and its second decoder layer
adaptively fuses the object queries with useful image features, leveraging both
spatial and contextual relationships. The attention mechanism of the
transformer enables our model to adaptively determine where and what
information should be taken from the image, leading to a robust and effective
fusion strategy. We additionally design an image-guided query initialization
strategy to deal with objects that are difficult to detect in point clouds.
TransFusion achieves state-of-the-art performance on large-scale datasets. We
provide extensive experiments to demonstrate its robustness against degenerated
image quality and calibration errors. We also extend the proposed method to the
3D tracking task and achieve the 1st place in the leaderboard of nuScenes
tracking, showing its effectiveness and generalization capability.
- Abstract(参考訳): LiDARとカメラは、自動運転における3Dオブジェクト検出のための2つの重要なセンサーである。
この分野でのセンサフュージョンの人気は高まっているが、劣等な画像条件(例えば、悪い照明やセンサーの誤認)に対する堅牢性は過小評価されている。
既存の融合法は, キャリブレーション行列によって確立されたLiDAR点と画像画素のハードな関連により, このような条件で容易に影響を受ける。
そこで本研究では,LiDAR-カメラ融合に対するソフトアソシエーション機構による堅牢な解であるTransFusionを提案する。
具体的には、TransFusionは、畳み込みバックボーンと、トランスフォーマーデコーダに基づく検出ヘッドで構成される。
デコーダの第1層は、オブジェクトクエリのスパースセットを使用して、lidarポイントクラウドから初期バウンディングボックスを予測し、第2のデコーダ層は、空間的および文脈的な関係を利用して、オブジェクトクエリと有用な画像特徴を適応的に融合する。
トランスの注意機構により,画像からどの情報を取り出すべきかを適応的に決定し,ロバストで効果的な融合戦略を実現する。
さらに,ポイントクラウドでは検出が難しいオブジェクトを扱うために,画像誘導クエリ初期化戦略も設計した。
TransFusionは大規模データセット上で最先端のパフォーマンスを実現する。
画像品質劣化と校正誤差に対するロバスト性を示すため,広範な実験を行った。
また,提案手法を3次元追跡タスクに拡張し,nuscenes追跡のリーダボードにおいて,その効果と一般化能力を示す第1位を達成する。
関連論文リスト
- Progressive Multi-Modal Fusion for Robust 3D Object Detection [12.048303829428452]
既存の方法は、バードアイビュー(BEV)とパースペクティブビュー(PV)の両方のモードから特徴を投影することで、単一ビューでセンサフュージョンを実行する。
本稿では,中間クエリレベルとオブジェクトクエリレベルの両方で,BEVとPVの両方の機能を組み合わせたプログレッシブフュージョンフレームワークProFusion3Dを提案する。
我々のアーキテクチャは、局所的およびグローバルな特徴を融合させ、3次元オブジェクト検出の堅牢性を高める。
論文 参考訳(メタデータ) (2024-10-09T22:57:47Z) - FlatFusion: Delving into Details of Sparse Transformer-based Camera-LiDAR Fusion for Autonomous Driving [63.96049803915402]
多様なセンサーのモダリティからのデータの統合は、自律運転のシナリオにおいて一般的な方法論となっている。
効率的な点雲変換器の最近の進歩は、スパースフォーマットにおける情報統合の有効性を裏付けている。
本稿では,Transformer を用いた sparse cameraLiDAR 融合における設計選択を包括的に検討する。
論文 参考訳(メタデータ) (2024-08-13T11:46:32Z) - Cross-Domain Spatial Matching for Camera and Radar Sensor Data Fusion in Autonomous Vehicle Perception System [0.0]
本稿では,自律走行車認識システムにおける3次元物体検出のためのカメラとレーダーセンサの融合問題に対する新しいアプローチを提案する。
我々のアプローチは、ディープラーニングの最近の進歩に基づいており、両方のセンサーの強度を活用して物体検出性能を向上させる。
提案手法は単一センサ・ソリューションよりも優れた性能を実現し,他のトップレベルの融合手法と直接競合できることを示す。
論文 参考訳(メタデータ) (2024-04-25T12:04:31Z) - Multi-Modal 3D Object Detection by Box Matching [109.43430123791684]
マルチモーダル3次元検出のためのボックスマッチング(FBMNet)による新しいフュージョンネットワークを提案する。
3Dオブジェクトと2Dオブジェクトの提案を学習することで、ROI特徴を組み合わせることで、検出のための融合を効果的に行うことができる。
論文 参考訳(メタデータ) (2023-05-12T18:08:51Z) - TransCAR: Transformer-based Camera-And-Radar Fusion for 3D Object
Detection [13.986963122264633]
TransCARはトランスフォーマーベースの3Dオブジェクト検出のためのカメラとレーダーの融合ソリューションである。
我々のモデルは、設定されたハンガリー損失を用いてクエリ毎のバウンディングボックスを推定する。
論文 参考訳(メタデータ) (2023-04-30T05:35:03Z) - 3D Dual-Fusion: Dual-Domain Dual-Query Camera-LiDAR Fusion for 3D Object
Detection [13.068266058374775]
我々は3Dデュアルフュージョンと呼ばれる新しいカメラ-LiDAR融合アーキテクチャを提案する。
提案手法は、カメラビューと3次元ボクセルビュードメインの特徴を融合させ、変形可能な注意を通して相互作用をモデル化する。
実験の結果,提案したカメラ-LiDAR融合アーキテクチャは,KITTIおよびnuScenesデータセット上での競合性能を達成した。
論文 参考訳(メタデータ) (2022-11-24T11:00:50Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z) - LIF-Seg: LiDAR and Camera Image Fusion for 3D LiDAR Semantic
Segmentation [78.74202673902303]
本稿では,LiDAR分割のための粗大なLiDARとカメラフュージョンベースネットワーク(LIF-Seg)を提案する。
提案手法は,画像の文脈情報を完全に活用し,単純だが効果的な早期融合戦略を導入する。
これら2つのコンポーネントの協力により、効果的なカメラ-LiDAR融合が成功する。
論文 参考訳(メタデータ) (2021-08-17T08:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。