論文の概要: Long-Tailed 3D Detection via 2D Late Fusion
- arxiv url: http://arxiv.org/abs/2312.10986v2
- Date: Thu, 25 Jan 2024 19:28:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-29 17:23:38.422392
- Title: Long-Tailed 3D Detection via 2D Late Fusion
- Title(参考訳): 2次元遅延核融合によるロングテール3次元検出
- Authors: Yechi Ma, Neehar Peri, Shuoquan Wei, Wei Hua, Deva Ramanan, Yanan Li,
Shu Kong
- Abstract要約: 自律走行車(AV)は、安全航法のために、一般的なクラスと稀なクラスの両方からオブジェクトを正確に検出する必要がある。
現代のLiDARベースの3D検出器は、疎いLiDAR点からの物体の認識が難しいため、希少なクラスでは不十分である。
RGB画像は、そのような曖昧さを解決するための視覚的証拠を提供し、RGB-LiDAR融合の研究を動機付けている。
- 参考スコア(独自算出の注目度): 48.04585341882589
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous vehicles (AVs) must accurately detect objects from both common and
rare classes for safe navigation, motivating the problem of Long-Tailed 3D
Object Detection (LT3D). Contemporary LiDAR-based 3D detectors perform poorly
on rare classes (e.g., CenterPoint only achieves 5.1 AP on stroller) as it is
difficult to recognize objects from sparse LiDAR points alone. RGB images
provide visual evidence to help resolve such ambiguities, motivating the study
of RGB-LiDAR fusion. In this paper, we delve into a simple late-fusion
framework that ensembles independently trained RGB and LiDAR detectors. Unlike
recent end-to-end methods which require paired multi-modal training data, our
late-fusion approach can easily leverage large-scale uni-modal datasets,
significantly improving rare class detection. In particular, we examine three
critical components in this late-fusion framework from first principles,
including whether to train 2D or 3D RGB detectors, whether to match RGB and
LiDAR detections in 3D or the projected 2D image plane, and how to fuse matched
detections.Extensive experiments reveal that 2D RGB detectors achieve better
recognition accuracy than 3D RGB detectors, matching on the 2D image plane
mitigates depth estimation errors, and fusing scores probabilistically with
calibration leads to state-of-the-art LT3D performance. Our late-fusion
approach achieves 51.4 mAP on the established nuScenes LT3D benchmark,
improving over prior work by 5.9 mAP.
- Abstract(参考訳): 自律走行車(AV)は、安全ナビゲーションのために、一般的なクラスと稀なクラスのオブジェクトを正確に検出する必要がある。
現代のLiDARベースの3D検出器は、希少なクラス(例えば、CenterPointはベビーカーで5.1 APしか達成していない)で性能が良くない。
RGB画像は、そのような曖昧さを解決するための視覚的証拠を提供し、RGB-LiDAR融合の研究を動機付けている。
本稿では,RGBおよびLiDAR検出器を独立に訓練した,シンプルな遅延融合フレームワークを探索する。
ペア化されたマルチモーダルトレーニングデータを必要とする最近のエンドツーエンド手法とは異なり、我々のレイトフュージョンアプローチは大規模ユニモーダルデータセットを容易に活用でき、希少なクラス検出を大幅に改善できる。
In particular, we examine three critical components in this late-fusion framework from first principles, including whether to train 2D or 3D RGB detectors, whether to match RGB and LiDAR detections in 3D or the projected 2D image plane, and how to fuse matched detections.Extensive experiments reveal that 2D RGB detectors achieve better recognition accuracy than 3D RGB detectors, matching on the 2D image plane mitigates depth estimation errors, and fusing scores probabilistically with calibration leads to state-of-the-art LT3D performance.
我々のレイトフュージョンアプローチは、確立されたnuScenes LT3Dベンチマークで51.4 mAPを達成する。
関連論文リスト
- OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation [67.56268991234371]
OV-Uni3DETRは、様々なシナリオにおける最先端のパフォーマンスを達成し、既存のメソッドを平均6%以上上回っている。
コードと事前訓練されたモデルは、後にリリースされる。
論文 参考訳(メタデータ) (2024-03-28T17:05:04Z) - ODM3D: Alleviating Foreground Sparsity for Semi-Supervised Monocular 3D
Object Detection [15.204935788297226]
ODM3Dフレームワークは、トレーニング中にLiDARドメインの知識を単分子検出器に注入するために、様々なレベルでのクロスモーダルな知識蒸留を必要とする。
既存手法の準最適トレーニングの主要因として,前景の空間空間を同定することにより,LiDAR点に埋め込まれた正確な位置化情報を活用する。
KITTI検証とテストベンチマークの両方で1位にランクインし、教師付きまたは半教師付きである既存のモノクラー手法をはるかに上回っている。
論文 参考訳(メタデータ) (2023-10-28T07:12:09Z) - Fully Sparse Fusion for 3D Object Detection [69.32694845027927]
現在広く使われているマルチモーダル3D検出法は、通常、密度の高いBird-Eye-View特徴マップを使用するLiDARベースの検出器上に構築されている。
完全にスパースなアーキテクチャは、長距離知覚において非常に効率的であるため、注目を集めている。
本稿では,新たに出現するフルスパースアーキテクチャにおいて,画像のモダリティを効果的に活用する方法を検討する。
論文 参考訳(メタデータ) (2023-04-24T17:57:43Z) - Multimodal Industrial Anomaly Detection via Hybrid Fusion [59.16333340582885]
ハイブリッド核融合方式を用いた新しいマルチモーダル異常検出法を提案する。
本モデルでは,MVTecD-3 ADデータセットにおける検出精度とセグメンテーション精度の両面で,最先端(SOTA)手法より優れている。
論文 参考訳(メタデータ) (2023-03-01T15:48:27Z) - Generalized Few-Shot 3D Object Detection of LiDAR Point Cloud for
Autonomous Driving [91.39625612027386]
我々は,一般的な(ベース)オブジェクトに対して大量のトレーニングデータを持つが,レア(ノーベル)クラスに対してはごく少数のデータしか持たない,一般化された数発の3Dオブジェクト検出という新しいタスクを提案する。
具体的には、画像と点雲の奥行きの違いを分析し、3D LiDARデータセットにおける少数ショット設定の実践的原理を示す。
この課題を解決するために,既存の3次元検出モデルを拡張し,一般的なオブジェクトと稀なオブジェクトの両方を認識するためのインクリメンタルな微調整手法を提案する。
論文 参考訳(メタデータ) (2023-02-08T07:11:36Z) - Towards Long-Tailed 3D Detection [56.82185415482943]
本研究では,Long-Tailed 3D Detection (LT3D) の課題について検討した。
各クラスの平均APは5%改善し,レアクラスのAPは劇的に改善した。
論文 参考訳(メタデータ) (2022-11-16T06:00:47Z) - DetMatch: Two Teachers are Better Than One for Joint 2D and 3D
Semi-Supervised Object Detection [29.722784254501768]
DetMatchは、2Dおよび3Dモダリティに関する共同半教師付き学習のための柔軟なフレームワークである。
両方のセンサーで検出された物体を識別することで、パイプラインはよりクリーンで堅牢な擬似ラベルを生成する。
我々はRGB画像のよりリッチなセマンティクスを活用して、誤った3Dクラスの予測を修正し、3Dボックスのローカライズを改善する。
論文 参考訳(メタデータ) (2022-03-17T17:58:00Z) - Dense Voxel Fusion for 3D Object Detection [10.717415797194896]
ボクセル融合 (Voxel Fusion, DVF) は, 多スケール密度ボクセル特徴表現を生成する逐次融合法である。
地上の真理2Dバウンディングボックスラベルを直接トレーニングし、ノイズの多い検出器固有の2D予測を避けます。
提案したマルチモーダルトレーニング戦略は, 誤った2次元予測を用いたトレーニングに比べ, より一般化できることを示す。
論文 参考訳(メタデータ) (2022-03-02T04:51:31Z) - CLOCs: Camera-LiDAR Object Candidates Fusion for 3D Object Detection [13.986963122264633]
CLOC(Camera-LiDAR Object Candidates)融合ネットワークを提案する。
CLOCs融合は低複雑さのマルチモーダル核融合フレームワークを提供する。
CLOCは、公式のKITTIリーダーボードにおいて、全ての核融合法の中で最高であることを示す。
論文 参考訳(メタデータ) (2020-09-02T02:07:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。