論文の概要: Fully Sparse Fusion for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2304.12310v2
- Date: Tue, 25 Apr 2023 07:58:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-26 23:14:01.130988
- Title: Fully Sparse Fusion for 3D Object Detection
- Title(参考訳): 3次元物体検出のための完全スパース融合
- Authors: Yingyan Li, Lue Fan, Yang Liu, Zehao Huang, Yuntao Chen, Naiyan Wang,
Zhaoxiang Zhang and Tieniu Tan
- Abstract要約: 現在広く使われているマルチモーダル3D検出法は、通常、密度の高いBird-Eye-View特徴マップを使用するLiDARベースの検出器上に構築されている。
完全にスパースなアーキテクチャは、長距離知覚において非常に効率的であるため、注目を集めている。
本稿では,新たに出現するフルスパースアーキテクチャにおいて,画像のモダリティを効果的に活用する方法を検討する。
- 参考スコア(独自算出の注目度): 91.28571584038467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Currently prevalent multimodal 3D detection methods are built upon
LiDAR-based detectors that usually use dense Bird's-Eye-View (BEV) feature
maps. However, the cost of such BEV feature maps is quadratic to the detection
range, making it not suitable for long-range detection. Fully sparse
architecture is gaining attention as they are highly efficient in long-range
perception. In this paper, we study how to effectively leverage image modality
in the emerging fully sparse architecture. Particularly, utilizing instance
queries, our framework integrates the well-studied 2D instance segmentation
into the LiDAR side, which is parallel to the 3D instance segmentation part in
the fully sparse detector. This design achieves a uniform query-based fusion
framework in both the 2D and 3D sides while maintaining the fully sparse
characteristic. Extensive experiments showcase state-of-the-art results on the
widely used nuScenes dataset and the long-range Argoverse 2 dataset. Notably,
the inference speed of the proposed method under the long-range LiDAR
perception setting is 2.7 $\times$ faster than that of other state-of-the-art
multimodal 3D detection methods. Code will be released at
\url{https://github.com/BraveGroup/FullySparseFusion}.
- Abstract(参考訳): 現在一般的なマルチモーダル3d検出手法は、通常高密度バードズ・アイビュー(bev)特徴マップを使用するlidarベースの検出器上に構築されている。
しかし、このようなBEV特徴マップのコストは検出範囲に2次的であるため、長距離検出には適さない。
完全にスパースなアーキテクチャは、長距離知覚において非常に効率的であるため注目されている。
本稿では,新たに出現するフルスパースアーキテクチャにおいて,画像のモダリティを効果的に活用する方法を検討する。
特にインスタンスクエリを利用することで,十分に研究された2dインスタンスセグメンテーションをlidar側に統合し,完全なスパース検出器内の3dインスタンスセグメンテーション部分と並列化する。
この設計は,完全スパース特性を維持しつつ,2次元と3次元の両面に均一なクエリベースの融合フレームワークを実現する。
広範な実験では、広く使われているnuscenesデータセットとlong-range argoverse 2データセットの最先端の結果が示されている。
特に、長距離LiDAR認識設定における提案手法の推論速度は、他の最先端マルチモーダル3D検出方法よりも2.7$\times$である。
コードは \url{https://github.com/BraveGroup/FullySparseFusion} でリリースされる。
関連論文リスト
- Robust 3D Object Detection from LiDAR-Radar Point Clouds via Cross-Modal
Feature Augmentation [7.364627166256136]
本稿では,点雲からの3次元物体検出のための新しい枠組みを提案する。
背骨の微細化と幻覚発生を同時に行うために,空間的および特徴的に複数のアライメントを導入する。
View-of-Delftデータセットの実験により,提案手法は,レーダとLiDARの両方のオブジェクト検出において,最先端(SOTA)手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-09-29T15:46:59Z) - Far3D: Expanding the Horizon for Surround-view 3D Object Detection [15.045811199986924]
本稿では、Far3Dと呼ばれるスパースクエリベースの新しいフレームワークを提案する。
高品質な2Dオブジェクトの事前利用により、3Dグローバルクエリを補完する3D適応クエリを生成する。
課題であるArgoverse 2データセット上でのSoTA性能を実証し,150mの範囲をカバーした。
論文 参考訳(メタデータ) (2023-08-18T15:19:17Z) - Super Sparse 3D Object Detection [48.684300007948906]
LiDARベースの3Dオブジェクト検出は、自動運転における長距離認識にますます貢献する。
高速な長距離検出を実現するため,まずフルスパース物体検出器FSDを提案する。
FSD++は、連続するフレーム間の点変化を示す残差点を生成する。
論文 参考訳(メタデータ) (2023-01-05T17:03:56Z) - Fully Sparse 3D Object Detection [57.05834683261658]
長距離LiDARオブジェクト検出のためのフルスパース3Dオブジェクト検出器(FSD)を構築した。
FSDは一般的なスパース・ボクセル・エンコーダと新しいスパース・インスタンス認識(SIR)モジュール上に構築されている。
SIRは、ポイントをインスタンスにグループ化することで、以前のポイントベースのメソッドでの待ち行列クエリを避ける。
論文 参考訳(メタデータ) (2022-07-20T17:01:33Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection [62.34374949726333]
擬似LiDAR(PL)は、LiDARセンサに基づく手法と安価なステレオカメラに基づく手法の精度ギャップを劇的に減らした。
PLは最先端のディープニューラルネットワークと2D深度マップ出力を3Dポイントクラウド入力に変換することで3Dオブジェクト検出のための3D深度推定を組み合わせている。
我々は、PLパイプライン全体をエンドツーエンドにトレーニングできるように、差別化可能なRepresentation (CoR)モジュールに基づく新しいフレームワークを導入します。
論文 参考訳(メタデータ) (2020-04-07T02:18:38Z) - BirdNet+: End-to-End 3D Object Detection in LiDAR Bird's Eye View [117.44028458220427]
自動運転車のオンボード3Dオブジェクト検出は、LiDARデバイスが捉えた幾何学情報に依存することが多い。
本稿では,BEV画像のみから指向性3Dボックスを推測可能な,エンドツーエンドの3Dオブジェクト検出フレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-09T15:08:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。