論文の概要: Long-Tailed 3D Detection via 2D Late Fusion
- arxiv url: http://arxiv.org/abs/2312.10986v3
- Date: Fri, 14 Jun 2024 14:26:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 19:24:01.459167
- Title: Long-Tailed 3D Detection via 2D Late Fusion
- Title(参考訳): 2次元レイトフュージョンによる長期3次元計測
- Authors: Yechi Ma, Neehar Peri, Shuoquan Wei, Wei Hua, Deva Ramanan, Yanan Li, Shu Kong,
- Abstract要約: Long-Tailed 3D Object Detection (LT3D) は、一般的なクラスと稀なクラスの両方からオブジェクトを正確に検出する問題に対処する。
本研究では,2次元・3次元RGB検出器の訓練方法,3次元におけるRGBおよびLiDAR検出の整合性,融合のために投影された2次元画像平面の融合性,マッチング検出の融合性について検討する。
- 参考スコア(独自算出の注目度): 45.75160615737416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-Tailed 3D Object Detection (LT3D) addresses the problem of accurately detecting objects from both common and rare classes. Contemporary multi-modal detectors achieve low AP on rare-classes (e.g., CMT only achieves 9.4 AP on stroller), presumably because training detectors end-to-end with significant class imbalance is challenging. To address this limitation, we delve into a simple late-fusion framework that ensembles independently trained uni-modal LiDAR and RGB detectors. Importantly, such a late-fusion framework allows us to leverage large-scale uni-modal datasets (with more examples for rare classes) to train better uni-modal RGB detectors, unlike prevailing multimodal detectors that require paired multi-modal training data. Notably, our approach significantly improves rare-class detection by 7.2% over prior work. Further, we examine three critical components of our simple late-fusion approach from first principles and investigate whether to train 2D or 3D RGB detectors, whether to match RGB and LiDAR detections in 3D or the projected 2D image plane for fusion, and how to fuse matched detections. Extensive experiments reveal that 2D RGB detectors achieve better recognition accuracy for rare classes than 3D RGB detectors and matching on the 2D image plane mitigates depth estimation errors. Our late-fusion approach achieves 51.4 mAP on the established nuScenes LT3D benchmark, improving over prior work by 5.9 mAP!
- Abstract(参考訳): Long-Tailed 3D Object Detection (LT3D) は、一般的なクラスと稀なクラスの両方からオブジェクトを正確に検出する問題に対処する。
現代のマルチモーダル検出器はレアクラスのAPが低い(例えば、CMTはベビーカーで9.4 APしか得られない)。
この制限に対処するため、単モードLiDARとRGB検出器を独立に訓練した単純な遅延融合フレームワークを探索する。
重要なことは、このような遅延融合フレームワークは、ペア化されたマルチモーダルトレーニングデータを必要とする一般的なマルチモーダル検出器とは異なり、大規模なユニモーダルデータセット(レアクラスの多くの例を含む)を活用して、より良いユニモーダルRGB検出器を訓練することを可能にする。
特に,本手法は従来よりもレアクラスの検出を7.2%向上させる。
さらに, 簡単なレイトフュージョンアプローチの3つの重要な要素について, 第一原理から検討し, 2Dまたは3D RGB検出器の訓練方法, 3DにおけるRGBおよびLiDAR検出と融合するか, 融合のために投影された2D画像平面を融合するか, および整合検出を融合する方法について検討した。
広汎な実験により、2次元RGB検出器は3次元RGB検出器よりもレアクラスの認識精度が向上し、2次元画像平面上でのマッチングにより深度推定誤差が軽減された。
我々のレイトフュージョンアプローチは、確立されたnuScenes LT3Dベンチマークで51.4 mAPを達成する。
関連論文リスト
- Better Monocular 3D Detectors with LiDAR from the Past [64.6759926054061]
カメラベースの3D検出器は、画像の奥行きのあいまいさのため、LiDARベースの検出器に比べて性能が劣ることが多い。
本研究では,未ラベルの歴史的LiDARデータを活用することにより,単分子3D検出器の改良を図る。
複数の最先端モデルやデータセットに対して,9.66ミリ秒の追加レイテンシとストレージコストの低い,一貫性と大幅なパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2024-04-08T01:38:43Z) - Dual-Branch Reconstruction Network for Industrial Anomaly Detection with
RGB-D Data [1.861332908680942]
3次元点雲とRGB画像に基づくマルチモーダル産業異常検出が出現し始めている。
上記の方法は、より長い推論時間と高いメモリ使用量を必要とするため、業界におけるリアルタイムな要求を満たすことはできない。
本稿では、RGB-D入力に基づく軽量な二重分岐再構成ネットワークを提案し、通常例と異常例の判定境界を学習する。
論文 参考訳(メタデータ) (2023-11-12T10:19:14Z) - ODM3D: Alleviating Foreground Sparsity for Semi-Supervised Monocular 3D
Object Detection [15.204935788297226]
ODM3Dフレームワークは、トレーニング中にLiDARドメインの知識を単分子検出器に注入するために、様々なレベルでのクロスモーダルな知識蒸留を必要とする。
既存手法の準最適トレーニングの主要因として,前景の空間空間を同定することにより,LiDAR点に埋め込まれた正確な位置化情報を活用する。
KITTI検証とテストベンチマークの両方で1位にランクインし、教師付きまたは半教師付きである既存のモノクラー手法をはるかに上回っている。
論文 参考訳(メタデータ) (2023-10-28T07:12:09Z) - MonoSKD: General Distillation Framework for Monocular 3D Object
Detection via Spearman Correlation Coefficient [11.48914285491747]
既存のモノクロ3D検出知識蒸留法は、通常、LiDARをイメージプレーンに投射し、それに従って教師ネットワークを訓練する。
本研究では,スピアマン相関係数に基づくモノクル3次元検出のための新しい知識蒸留フレームワークMonoSKDを提案する。
提案フレームワークは,推論計算コストを加算せずに提案するまでの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-17T14:48:02Z) - Generalized Few-Shot 3D Object Detection of LiDAR Point Cloud for
Autonomous Driving [91.39625612027386]
我々は,一般的な(ベース)オブジェクトに対して大量のトレーニングデータを持つが,レア(ノーベル)クラスに対してはごく少数のデータしか持たない,一般化された数発の3Dオブジェクト検出という新しいタスクを提案する。
具体的には、画像と点雲の奥行きの違いを分析し、3D LiDARデータセットにおける少数ショット設定の実践的原理を示す。
この課題を解決するために,既存の3次元検出モデルを拡張し,一般的なオブジェクトと稀なオブジェクトの両方を認識するためのインクリメンタルな微調整手法を提案する。
論文 参考訳(メタデータ) (2023-02-08T07:11:36Z) - Far3Det: Towards Far-Field 3D Detection [67.38417186733487]
我々は、観測者から一定の距離を超える物体の遠距離3次元検出(Far3Det)の課題に焦点を当てる。
Far3Detは高速道路で動く自動運転車(AV)にとって特に重要である。
我々は,nuScenesデータセットからよく注釈付きシーンを抽出し,十分に注釈付き遠距離フィールド検証セットを導出する手法を開発した。
Far3Detの評価プロトコルを提案し,Far3Detの様々な3次元検出手法を提案する。
論文 参考訳(メタデータ) (2022-11-25T02:07:57Z) - MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth
Seeds for 3D Object Detection [89.26380781863665]
自律運転システムにおける高精度で信頼性の高い3次元物体検出を実現するためには,LiDARとカメラ情報の融合が不可欠である。
近年のアプローチでは、2次元カメラ画像の3次元空間への昇華点によるカメラ特徴のセマンティックな密度の探索が試みられている。
マルチグラニュラリティLiDARとカメラ機能とのマルチスケールなプログレッシブインタラクションに焦点を当てた,新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-07T12:29:29Z) - Boosting 3D Object Detection by Simulating Multimodality on Point Clouds [51.87740119160152]
本稿では,LiDAR 画像検出器に追従する特徴や応答をシミュレートすることで,単一モダリティ (LiDAR) 3次元物体検出器を高速化する新しい手法を提案する。
このアプローチでは、単一モダリティ検出器をトレーニングする場合のみ、LiDARイメージデータを必要とし、十分にトレーニングされた場合には、推論時にのみLiDARデータが必要である。
nuScenesデータセットの実験結果から,本手法はSOTA LiDARのみの3D検出器よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-06-30T01:44:30Z) - DetMatch: Two Teachers are Better Than One for Joint 2D and 3D
Semi-Supervised Object Detection [29.722784254501768]
DetMatchは、2Dおよび3Dモダリティに関する共同半教師付き学習のための柔軟なフレームワークである。
両方のセンサーで検出された物体を識別することで、パイプラインはよりクリーンで堅牢な擬似ラベルを生成する。
我々はRGB画像のよりリッチなセマンティクスを活用して、誤った3Dクラスの予測を修正し、3Dボックスのローカライズを改善する。
論文 参考訳(メタデータ) (2022-03-17T17:58:00Z) - CLOCs: Camera-LiDAR Object Candidates Fusion for 3D Object Detection [13.986963122264633]
CLOC(Camera-LiDAR Object Candidates)融合ネットワークを提案する。
CLOCs融合は低複雑さのマルチモーダル核融合フレームワークを提供する。
CLOCは、公式のKITTIリーダーボードにおいて、全ての核融合法の中で最高であることを示す。
論文 参考訳(メタデータ) (2020-09-02T02:07:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。