論文の概要: ODM3D: Alleviating Foreground Sparsity for Semi-Supervised Monocular 3D
Object Detection
- arxiv url: http://arxiv.org/abs/2310.18620v2
- Date: Tue, 7 Nov 2023 02:55:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 18:56:02.669311
- Title: ODM3D: Alleviating Foreground Sparsity for Semi-Supervised Monocular 3D
Object Detection
- Title(参考訳): ODM3D:半教師付き単眼立体物体検出のための前景空間の緩和
- Authors: Weijia Zhang, Dongnan Liu, Chao Ma, Weidong Cai
- Abstract要約: ODM3Dフレームワークは、トレーニング中にLiDARドメインの知識を単分子検出器に注入するために、様々なレベルでのクロスモーダルな知識蒸留を必要とする。
既存手法の準最適トレーニングの主要因として,前景の空間空間を同定することにより,LiDAR点に埋め込まれた正確な位置化情報を活用する。
KITTI検証とテストベンチマークの両方で1位にランクインし、教師付きまたは半教師付きである既存のモノクラー手法をはるかに上回っている。
- 参考スコア(独自算出の注目度): 15.204935788297226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular 3D object detection (M3OD) is a significant yet inherently
challenging task in autonomous driving due to absence of explicit depth cues in
a single RGB image. In this paper, we strive to boost currently underperforming
monocular 3D object detectors by leveraging an abundance of unlabelled data via
semi-supervised learning. Our proposed ODM3D framework entails cross-modal
knowledge distillation at various levels to inject LiDAR-domain knowledge into
a monocular detector during training. By identifying foreground sparsity as the
main culprit behind existing methods' suboptimal training, we exploit the
precise localisation information embedded in LiDAR points to enable more
foreground-attentive and efficient distillation via the proposed BEV occupancy
guidance mask, leading to notably improved knowledge transfer and M3OD
performance. Besides, motivated by insights into why existing cross-modal
GT-sampling techniques fail on our task at hand, we further design a novel
cross-modal object-wise data augmentation strategy for effective RGB-LiDAR
joint learning. Our method ranks 1st in both KITTI validation and test
benchmarks, significantly surpassing all existing monocular methods, supervised
or semi-supervised, on both BEV and 3D detection metrics.
- Abstract(参考訳): 単眼3次元物体検出(M3OD)は、1枚のRGB画像に明確な深度手がかりがないため、自律運転において重要な課題である。
本稿では,半教師付き学習によるラベルなしデータの豊富活用により,現在性能の低い単眼的3d物体検出器の高速化に努める。
提案するODM3Dフレームワークは,トレーニング中にLiDARドメインの知識を単分子検出器に注入するために,様々なレベルでのクロスモーダルな知識蒸留を行う。
既存手法の準最適トレーニングの主要因として前景空間を同定することにより,LiDAR点に埋め込まれた正確な位置情報を利用して,提案したBEV占有誘導マスクを介して,より前景収容的で効率的な蒸留が可能となり,知識伝達とM3OD性能が著しく向上した。
さらに,既存のGTサンプリング技術が手作業で失敗する理由を考察した上で,実効的なRGB-LiDARジョイントラーニングのための新たなクロスモーダルオブジェクト指向データ拡張戦略を設計する。
本手法は,BEVおよび3次元検出測定値において,既存の単分子法および半教師付き法をはるかに上回り,KITTIバリデーションおよびテストベンチマークにおいて第1位にランクインする。
関連論文リスト
- Multi-Modal Data-Efficient 3D Scene Understanding for Autonomous Driving [58.16024314532443]
我々は、異なるLiDARスキャンからレーザービーム操作を統合するフレームワークであるLaserMix++を導入し、データ効率の学習を支援するためにLiDAR-カメラ対応を組み込んだ。
結果は、LaserMix++が完全に教師付き代替よりも優れており、5倍のアノテーションで同等の精度を実現していることを示している。
この大幅な進歩は、LiDARベースの3Dシーン理解システムにおける広範囲なラベル付きデータへの依存を減らすための半教師付きアプローチの可能性を示している。
論文 参考訳(メタデータ) (2024-05-08T17:59:53Z) - Monocular 3D Object Detection with LiDAR Guided Semi Supervised Active
Learning [2.16117348324501]
LiDAR誘導を用いたモノクロ3次元物体検出のための新しい半教師付き能動学習フレームワーク(SSAL)を提案する。
我々はLiDARを用いて、単分子型3D検出器のデータ選択とトレーニングを、推論フェーズのオーバーヘッドを伴わずにガイドする。
トレーニング戦略は,BEV平均精度(AP)を2.02倍に向上させることで,KITTI 3Dと鳥眼視(BEV)単眼物体検出の公式ベンチマークでトップとなる。
論文 参考訳(メタデータ) (2023-07-17T11:55:27Z) - Boosting 3D Object Detection by Simulating Multimodality on Point Clouds [51.87740119160152]
本稿では,LiDAR 画像検出器に追従する特徴や応答をシミュレートすることで,単一モダリティ (LiDAR) 3次元物体検出器を高速化する新しい手法を提案する。
このアプローチでは、単一モダリティ検出器をトレーニングする場合のみ、LiDARイメージデータを必要とし、十分にトレーニングされた場合には、推論時にのみLiDARデータが必要である。
nuScenesデータセットの実験結果から,本手法はSOTA LiDARのみの3D検出器よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-06-30T01:44:30Z) - Dense Voxel Fusion for 3D Object Detection [10.717415797194896]
ボクセル融合 (Voxel Fusion, DVF) は, 多スケール密度ボクセル特徴表現を生成する逐次融合法である。
地上の真理2Dバウンディングボックスラベルを直接トレーニングし、ノイズの多い検出器固有の2D予測を避けます。
提案したマルチモーダルトレーニング戦略は, 誤った2次元予測を用いたトレーニングに比べ, より一般化できることを示す。
論文 参考訳(メタデータ) (2022-03-02T04:51:31Z) - MonoDistill: Learning Spatial Features for Monocular 3D Object Detection [80.74622486604886]
本稿では,LiDAR信号からの空間情報を単分子3D検出器に導入するための簡易かつ効果的な手法を提案する。
得られたデータを用いて、ベースラインモデルと同じアーキテクチャで3D検出器をトレーニングする。
実験の結果,提案手法はベースラインモデルの性能を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-01-26T09:21:41Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z) - SGM3D: Stereo Guided Monocular 3D Object Detection [62.11858392862551]
SGM3Dと呼ばれるステレオ誘導単分子物体検出ネットワークを提案する。
ステレオ画像から抽出したロバストな3次元特徴を利用して、モノクル画像から得られた特徴を強化する。
本手法は,余分な計算コストを伴わずに性能を向上させるために,他の多くの単分子的手法に統合することができる。
論文 参考訳(メタデータ) (2021-12-03T13:57:14Z) - SESS: Self-Ensembling Semi-Supervised 3D Object Detection [138.80825169240302]
具体的には、ラベルのない新しい未知のデータに基づくネットワークの一般化を促進するための、徹底的な摂動スキームを設計する。
我々のSESSは、50%のラベル付きデータを用いて、最先端の完全教師付き手法と比較して、競争性能を達成している。
論文 参考訳(メタデータ) (2019-12-26T08:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。