論文の概要: SparseFusion: Fusing Multi-Modal Sparse Representations for Multi-Sensor
3D Object Detection
- arxiv url: http://arxiv.org/abs/2304.14340v1
- Date: Thu, 27 Apr 2023 17:17:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 12:32:52.462107
- Title: SparseFusion: Fusing Multi-Modal Sparse Representations for Multi-Sensor
3D Object Detection
- Title(参考訳): sparsefusion:マルチセンサ3dオブジェクト検出にマルチモーダルスパース表現を使用する
- Authors: Yichen Xie, Chenfeng Xu, Marie-Julie Rakotosaona, Patrick Rim,
Federico Tombari, Kurt Keutzer, Masayoshi Tomizuka, Wei Zhan
- Abstract要約: 物体がシーンのごく一部を占めることを考えると、密度の高い候補を見つけ、密度の高い表現を生成するのは騒々しく非効率である。
スパース候補とスパース表現のみを用いた新しいマルチセンサ3D検出法であるスパースフュージョンを提案する。
SparseFusionは、nuScenesベンチマークで最先端のパフォーマンスを達成しつつ、高速で動作し、バックボーンがより強力なメソッドよりも優れています。
- 参考スコア(独自算出の注目度): 84.09798649295038
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: By identifying four important components of existing LiDAR-camera 3D object
detection methods (LiDAR and camera candidates, transformation, and fusion
outputs), we observe that all existing methods either find dense candidates or
yield dense representations of scenes. However, given that objects occupy only
a small part of a scene, finding dense candidates and generating dense
representations is noisy and inefficient. We propose SparseFusion, a novel
multi-sensor 3D detection method that exclusively uses sparse candidates and
sparse representations. Specifically, SparseFusion utilizes the outputs of
parallel detectors in the LiDAR and camera modalities as sparse candidates for
fusion. We transform the camera candidates into the LiDAR coordinate space by
disentangling the object representations. Then, we can fuse the multi-modality
candidates in a unified 3D space by a lightweight self-attention module. To
mitigate negative transfer between modalities, we propose novel semantic and
geometric cross-modality transfer modules that are applied prior to the
modality-specific detectors. SparseFusion achieves state-of-the-art performance
on the nuScenes benchmark while also running at the fastest speed, even
outperforming methods with stronger backbones. We perform extensive experiments
to demonstrate the effectiveness and efficiency of our modules and overall
method pipeline. Our code will be made publicly available at
https://github.com/yichen928/SparseFusion.
- Abstract(参考訳): 既存のLiDARカメラ3Dオブジェクト検出手法(LiDARおよびカメラ候補、変換、融合出力)の4つの重要な要素を同定することにより、既存のすべての手法が濃密な候補を見つけるか、シーンの濃密な表現を生成するかを観察する。
しかし、物体がシーンのごく一部を占めることを考えると、密度の高い候補を見つけ、密度の高い表現を生成するのはノイズが多く非効率である。
スパース候補とスパース表現のみを用いた新しいマルチセンサ3D検出法であるスパースフュージョンを提案する。
具体的には、SparseFusionはLiDARにおける並列検出器の出力とカメラモードを融合のスパース候補として利用する。
我々は、カメラ候補をオブジェクト表現から切り離してLiDAR座標空間に変換する。
そして、軽量なセルフアテンションモジュールによって、複数のモダリティ候補を統一された3d空間に融合することができる。
モーダリティ間の負の移動を緩和するため,モーダリティ特異的検出器に先立って適用される新しい意味的および幾何学的相互モダリティ移動モジュールを提案する。
SparseFusionは、nuScenesベンチマークで最先端のパフォーマンスを達成しつつ、高速で動作し、バックボーンがより強力なメソッドよりも優れています。
モジュールとメソッドパイプラインの効率性と有効性を示すために,広範な実験を行います。
私たちのコードはhttps://github.com/yichen928/sparsefusionで公開されます。
関連論文リスト
- Progressive Multi-Modal Fusion for Robust 3D Object Detection [12.048303829428452]
既存の方法は、バードアイビュー(BEV)とパースペクティブビュー(PV)の両方のモードから特徴を投影することで、単一ビューでセンサフュージョンを実行する。
本稿では,中間クエリレベルとオブジェクトクエリレベルの両方で,BEVとPVの両方の機能を組み合わせたプログレッシブフュージョンフレームワークProFusion3Dを提案する。
我々のアーキテクチャは、局所的およびグローバルな特徴を融合させ、3次元オブジェクト検出の堅牢性を高める。
論文 参考訳(メタデータ) (2024-10-09T22:57:47Z) - SparseFusion: Efficient Sparse Multi-Modal Fusion Framework for Long-Range 3D Perception [47.000734648271006]
SparseFusionは,スパース3次元特徴を基盤として構築され,より効率的な長距離知覚を実現する新しい多モード融合フレームワークである。
提案したモジュールは,前景オブジェクトが存在可能なグリッドのみを埋める意味的側面と幾何学的側面の両方から疎結合を導入する。
長距離Argoverse2データセットでは、SparseFusionはメモリフットプリントを減らし、密度の高い検出器に比べて約2倍の速度で推論を高速化する。
論文 参考訳(メタデータ) (2024-03-15T05:59:10Z) - Multi-Modal 3D Object Detection by Box Matching [109.43430123791684]
マルチモーダル3次元検出のためのボックスマッチング(FBMNet)による新しいフュージョンネットワークを提案する。
3Dオブジェクトと2Dオブジェクトの提案を学習することで、ROI特徴を組み合わせることで、検出のための融合を効果的に行うことができる。
論文 参考訳(メタデータ) (2023-05-12T18:08:51Z) - Unifying Voxel-based Representation with Transformer for 3D Object
Detection [143.91910747605107]
マルチモード3Dオブジェクト検出のための統一フレームワークUVTRを提案する。
提案手法は, ボクセル空間におけるマルチモーダリティ表現を統一し, 高精度かつ堅牢な単一モード・クロスモーダリティ3D検出を実現することを目的とする。
UVTRは、69.7%、55.1%、71.1%のNDSで、それぞれLiDAR、カメラ、マルチモダリティの入力を行う。
論文 参考訳(メタデータ) (2022-06-01T17:02:40Z) - Focal Sparse Convolutional Networks for 3D Object Detection [121.45950754511021]
我々はスパースCNNの能力を高めるために2つの新しいモジュールを導入する。
焦点スパース・コンボリューション(Focals Conv)であり、焦点スパース・コンボリューションの多様変種である。
スパース・コンボリューションにおける空間的に学習可能な空間空間性は,高度な3次元物体検出に不可欠であることを示す。
論文 参考訳(メタデータ) (2022-04-26T17:34:10Z) - FusionPainting: Multimodal Fusion with Adaptive Attention for 3D Object
Detection [15.641616738865276]
本稿では,2次元RGB画像と3次元点群をセマンティックレベルで融合させて3次元物体検出タスクを増強する汎用多モード核融合フレームワークFusionPaintingを提案する。
特にFusionPaintingフレームワークは、マルチモーダルセマンティックセグメンテーションモジュール、アダプティブアテンションベースのセマンティックフュージョンモジュール、および3Dオブジェクト検出器の3つの主要モジュールで構成されている。
提案手法の有効性を,大規模なnuScenes検出ベンチマークで検証した。
論文 参考訳(メタデータ) (2021-06-23T14:53:22Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - CLOCs: Camera-LiDAR Object Candidates Fusion for 3D Object Detection [13.986963122264633]
CLOC(Camera-LiDAR Object Candidates)融合ネットワークを提案する。
CLOCs融合は低複雑さのマルチモーダル核融合フレームワークを提供する。
CLOCは、公式のKITTIリーダーボードにおいて、全ての核融合法の中で最高であることを示す。
論文 参考訳(メタデータ) (2020-09-02T02:07:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。