論文の概要: FlatFusion: Delving into Details of Sparse Transformer-based Camera-LiDAR Fusion for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2408.06832v1
- Date: Tue, 13 Aug 2024 11:46:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 17:36:36.951425
- Title: FlatFusion: Delving into Details of Sparse Transformer-based Camera-LiDAR Fusion for Autonomous Driving
- Title(参考訳): FlatFusion: 自律運転のためのスパーストランスフォーマーベースカメラLiDARフュージョンの詳細
- Authors: Yutao Zhu, Xiaosong Jia, Xinyu Yang, Junchi Yan,
- Abstract要約: 多様なセンサーのモダリティからのデータの統合は、自律運転のシナリオにおいて一般的な方法論となっている。
効率的な点雲変換器の最近の進歩は、スパースフォーマットにおける情報統合の有効性を裏付けている。
本稿では,Transformer を用いた sparse cameraLiDAR 融合における設計選択を包括的に検討する。
- 参考スコア(独自算出の注目度): 63.96049803915402
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The integration of data from diverse sensor modalities (e.g., camera and LiDAR) constitutes a prevalent methodology within the ambit of autonomous driving scenarios. Recent advancements in efficient point cloud transformers have underscored the efficacy of integrating information in sparse formats. When it comes to fusion, since image patches are dense in pixel space with ambiguous depth, it necessitates additional design considerations for effective fusion. In this paper, we conduct a comprehensive exploration of design choices for Transformer-based sparse cameraLiDAR fusion. This investigation encompasses strategies for image-to-3D and LiDAR-to-2D mapping, attention neighbor grouping, single modal tokenizer, and micro-structure of Transformer. By amalgamating the most effective principles uncovered through our investigation, we introduce FlatFusion, a carefully designed framework for sparse camera-LiDAR fusion. Notably, FlatFusion significantly outperforms state-of-the-art sparse Transformer-based methods, including UniTR, CMT, and SparseFusion, achieving 73.7 NDS on the nuScenes validation set with 10.1 FPS with PyTorch.
- Abstract(参考訳): センサーの多様性(例えばカメラやLiDAR)からのデータの統合は、自律運転のシナリオにおいて一般的な方法論となっている。
効率的な点雲変換器の最近の進歩は、スパースフォーマットにおける情報統合の有効性を裏付けている。
融合に関しては、画像パッチは不明瞭な深さを持つピクセル空間に密着しているため、効果的な融合のために追加の設計上の考慮が必要である。
本稿では,Transformer を用いた sparse cameraLiDAR 融合における設計選択を包括的に検討する。
本研究は,画像から3D,LiDAR-to-2Dマッピング,アテンション近隣グループ化,シングルモーダルトークン化,トランスフォーマーの微細構造について検討する。
調査を通じて明らかになった最も効果的な原理を要約することで、カメラ-LiDAR融合のための慎重に設計されたフレームワークであるFlatFusionを紹介します。
特に、FlatFusionは、UniTR、CMT、SparseFusionといった最先端のスパーストランスフォーマーベースの手法よりも優れており、PyTorchで10.1 FPSのnuScenesバリデーションセットで73.7 NDSを達成した。
関連論文リスト
- Progressive Multi-Modal Fusion for Robust 3D Object Detection [12.048303829428452]
既存の方法は、バードアイビュー(BEV)とパースペクティブビュー(PV)の両方のモードから特徴を投影することで、単一ビューでセンサフュージョンを実行する。
本稿では,中間クエリレベルとオブジェクトクエリレベルの両方で,BEVとPVの両方の機能を組み合わせたプログレッシブフュージョンフレームワークProFusion3Dを提案する。
我々のアーキテクチャは、局所的およびグローバルな特徴を融合させ、3次元オブジェクト検出の堅牢性を高める。
論文 参考訳(メタデータ) (2024-10-09T22:57:47Z) - Quantum Inverse Contextual Vision Transformers (Q-ICVT): A New Frontier in 3D Object Detection for AVs [4.378378863689719]
我々はQuantum Inverse Contextual Vision Transformer (Q-ICVT)と呼ばれる革新的な2段階融合プロセスを開発している。
このアプローチは、量子概念における断熱計算を利用して、Global Adiabatic Transformer (GAT)として知られる新しい可逆的視覚変換器を作成する。
実験の結果,Q-ICVTはL2障害に対して82.54mAPHを実現し,現状の核融合法よりも1.88%向上した。
論文 参考訳(メタデータ) (2024-08-20T21:36:57Z) - SparseFusion: Fusing Multi-Modal Sparse Representations for Multi-Sensor
3D Object Detection [84.09798649295038]
物体がシーンのごく一部を占めることを考えると、密度の高い候補を見つけ、密度の高い表現を生成するのは騒々しく非効率である。
スパース候補とスパース表現のみを用いた新しいマルチセンサ3D検出法であるスパースフュージョンを提案する。
SparseFusionは、nuScenesベンチマークで最先端のパフォーマンスを達成しつつ、高速で動作し、バックボーンがより強力なメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-04-27T17:17:39Z) - CRAFT: Camera-Radar 3D Object Detection with Spatio-Contextual Fusion
Transformer [14.849645397321185]
カメラレーダーセンサーは、LiDARと比較してコスト、信頼性、メンテナンスにおいて大きな利点がある。
既存の融合法はしばしば、後期融合戦略(英語版)と呼ばれる結果レベルで単一のモダリティの出力を融合させる。
本稿では,3次元物体検出のためのカメラとレーダーの空間的特性と文脈的特性を効果的に活用する提案レベルの早期融合手法を提案する。
我々のカメラレーダ融合アプローチは、カメラ専用ベースラインよりも8.7および10.8ポイント高いnuScenesテストセット上で、41.1% mAPと52.3% NDSの最先端を実現し、また、カメラ上での競争性能を得る。
論文 参考訳(メタデータ) (2022-09-14T10:25:30Z) - TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with
Transformers [49.689566246504356]
そこで本研究では,LiDAR-カメラ融合に対するソフトアソシエーション機構による堅牢な解であるTransFusionを提案する。
TransFusionは大規模データセット上で最先端のパフォーマンスを実現する。
提案手法を3次元トラッキングタスクに拡張し,nuScenesトラッキングのリーダーボードにおける第1位を達成する。
論文 参考訳(メタデータ) (2022-03-22T07:15:13Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z) - Image Fusion Transformer [75.71025138448287]
画像融合では、異なるセンサから得られた画像を融合して、情報強化された単一の画像を生成する。
近年,画像融合のための有意義な特徴を符号化するために,最先端の手法で畳み込みニューラルネットワーク(CNN)が採用されている。
我々は,画像融合変換器 (IFT) を提案する。
論文 参考訳(メタデータ) (2021-07-19T16:42:49Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。