論文の概要: PromptDet: A Lightweight 3D Object Detection Framework with LiDAR Prompts
- arxiv url: http://arxiv.org/abs/2412.12460v2
- Date: Sat, 11 Jan 2025 14:06:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:24:53.566403
- Title: PromptDet: A Lightweight 3D Object Detection Framework with LiDAR Prompts
- Title(参考訳): PromptDet: LiDAR Promptを使った軽量3Dオブジェクト検出フレームワーク
- Authors: Kun Guo, Qiang Ling,
- Abstract要約: マルチカメラ3Dオブジェクト検出は、複数のカメラを用いて3次元空間内のオブジェクトを検出し、ローカライズすることを目的としている。
近年,この問題を解決するために3次元物体検出のための多モード融合と知識蒸留法が提案されている。
提案するPromptDetは,2次元基礎モデルにおける素早い学習の成功を動機とした,軽量で効果的な3次元オブジェクト検出フレームワークである。
- 参考スコア(独自算出の注目度): 20.826868275560553
- License:
- Abstract: Multi-camera 3D object detection aims to detect and localize objects in 3D space using multiple cameras, which has attracted more attention due to its cost-effectiveness trade-off. However, these methods often struggle with the lack of accurate depth estimation caused by the natural weakness of the camera in ranging. Recently, multi-modal fusion and knowledge distillation methods for 3D object detection have been proposed to solve this problem, which are time-consuming during the training phase and not friendly to memory cost. In light of this, we propose PromptDet, a lightweight yet effective 3D object detection framework motivated by the success of prompt learning in 2D foundation model. Our proposed framework, PromptDet, comprises two integral components: a general camera-based detection module, exemplified by models like BEVDet and BEVDepth, and a LiDAR-assisted prompter. The LiDAR-assisted prompter leverages the LiDAR points as a complementary signal, enriched with a minimal set of additional trainable parameters. Notably, our framework is flexible due to our prompt-like design, which can not only be used as a lightweight multi-modal fusion method but also as a camera-only method for 3D object detection during the inference phase. Extensive experiments on nuScenes validate the effectiveness of the proposed PromptDet. As a multi-modal detector, PromptDet improves the mAP and NDS by at most 22.8\% and 21.1\% with fewer than 2\% extra parameters compared with the camera-only baseline. Without LiDAR points, PromptDet still achieves an improvement of at most 2.4\% mAP and 4.0\% NDS with almost no impact on camera detection inference time.
- Abstract(参考訳): マルチカメラ3Dオブジェクト検出は、コスト効率のトレードオフにより注目されている複数のカメラを用いて、オブジェクトを3D空間で検出し、ローカライズすることを目的としている。
しかし、これらの手法は、カメラの自然な弱点に起因する正確な深さ推定の欠如に苦慮することが多い。
近年,3次元物体検出のためのマルチモーダル融合と知識蒸留法が提案され,この課題が解決された。
そこで本研究では,2次元基礎モデルにおける素早い学習の成功を動機とした,軽量かつ効果的な3次元オブジェクト検出フレームワークであるPromptDetを提案する。
提案するフレームワークであるPromptDetは、BEVDetやBEVDepthといったモデルで実証された一般的なカメラベースの検出モジュールと、LiDAR支援プロンプトの2つの統合コンポーネントから構成される。
LiDAR支援プロンプトは、LiDARポイントを補完信号として利用し、最小限のトレーニング可能なパラメータを付加する。
特に,我々のフレームワークは,軽量なマルチモーダル融合法だけでなく,推論フェーズにおける3次元物体検出のためのカメラのみの手法としても使用できる,プロンプトライクな設計のため,柔軟である。
nuScenesに関する大規模な実験は、提案されたPromptDetの有効性を検証する。
マルチモーダル検出器として、PromptDetはカメラのみのベースラインと比較して、少なくとも22.8\%と21.1\%のパラメータでmAPとNDSを改善している。
LiDARポイントがなければ、PromptDetはカメラ検出の推論時間にほとんど影響を与えず、少なくとも2.4 % mAPと4.0 % NDSの改善を達成している。
関連論文リスト
- SimpleBEV: Improved LiDAR-Camera Fusion Architecture for 3D Object Detection [15.551625571158056]
高精度な3次元物体検出のためのLiDARカメラ融合フレームワークSimpleBEVを提案する。
提案手法は, nuScenesデータセット上で77.6%のNDS精度を実現し, 3次元物体検出トラックにおける優れた性能を示す。
論文 参考訳(メタデータ) (2024-11-08T02:51:39Z) - Approaching Outside: Scaling Unsupervised 3D Object Detection from 2D Scene [22.297964850282177]
教師なし3次元検出のためのLiDAR-2D Self-paced Learning (LiSe)を提案する。
RGB画像は、正確な2Dローカライゼーションキューを提供するLiDARデータの貴重な補完となる。
本フレームワークでは,適応型サンプリングと弱いモデルアグリゲーション戦略を組み込んだ自己評価学習パイプラインを考案する。
論文 参考訳(メタデータ) (2024-07-11T14:58:49Z) - Sparse Points to Dense Clouds: Enhancing 3D Detection with Limited LiDAR Data [68.18735997052265]
単分子と点雲に基づく3次元検出の利点を組み合わせたバランスの取れたアプローチを提案する。
本手法では,低コストで低解像度のセンサから得られる3Dポイントを少数必要としている。
3次元検出の精度は最先端の単分子検出法と比較して20%向上する。
論文 参考訳(メタデータ) (2024-04-10T03:54:53Z) - Robust 3D Object Detection from LiDAR-Radar Point Clouds via Cross-Modal
Feature Augmentation [7.364627166256136]
本稿では,点雲からの3次元物体検出のための新しい枠組みを提案する。
背骨の微細化と幻覚発生を同時に行うために,空間的および特徴的に複数のアライメントを導入する。
View-of-Delftデータセットの実験により,提案手法は,レーダとLiDARの両方のオブジェクト検出において,最先端(SOTA)手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-09-29T15:46:59Z) - MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth
Seeds for 3D Object Detection [89.26380781863665]
自律運転システムにおける高精度で信頼性の高い3次元物体検出を実現するためには,LiDARとカメラ情報の融合が不可欠である。
近年のアプローチでは、2次元カメラ画像の3次元空間への昇華点によるカメラ特徴のセマンティックな密度の探索が試みられている。
マルチグラニュラリティLiDARとカメラ機能とのマルチスケールなプログレッシブインタラクションに焦点を当てた,新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-07T12:29:29Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - Boosting 3D Object Detection by Simulating Multimodality on Point Clouds [51.87740119160152]
本稿では,LiDAR 画像検出器に追従する特徴や応答をシミュレートすることで,単一モダリティ (LiDAR) 3次元物体検出器を高速化する新しい手法を提案する。
このアプローチでは、単一モダリティ検出器をトレーニングする場合のみ、LiDARイメージデータを必要とし、十分にトレーニングされた場合には、推論時にのみLiDARデータが必要である。
nuScenesデータセットの実験結果から,本手法はSOTA LiDARのみの3D検出器よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-06-30T01:44:30Z) - Multi-modal 3D Human Pose Estimation with 2D Weak Supervision in
Autonomous Driving [74.74519047735916]
自動運転車(AV)における3次元ポーズ推定(HPE)は,多くの要因において他のユースケースと異なる。
他のユースケース(仮想現実、ゲーム、アニメーションなど)のために収集されたデータは、AVアプリケーションには使用できない可能性がある。
本稿では,この問題をAV設定で緩和するための最初のアプローチの1つを提案する。
論文 参考訳(メタデータ) (2021-12-22T18:57:16Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。