論文の概要: LabelDistill: Label-guided Cross-modal Knowledge Distillation for Camera-based 3D Object Detection
- arxiv url: http://arxiv.org/abs/2407.10164v1
- Date: Sun, 14 Jul 2024 11:18:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 19:19:02.335196
- Title: LabelDistill: Label-guided Cross-modal Knowledge Distillation for Camera-based 3D Object Detection
- Title(参考訳): LabelDistill:カメラによる3Dオブジェクト検出のためのラベル誘導型クロスモーダル知識蒸留
- Authors: Sanmin Kim, Youngseok Kim, Sihwan Hwang, Hyeonjun Jeong, Dongsuk Kum,
- Abstract要約: クロスモーダルな知識蒸留は、LiDAR 3D検出器で性能ギャップを埋めることができる。
本研究では,アレータティックな不確実性のない特徴を地中真理ラベルから活用する手法を提案する。
本手法は,ベースラインモデルと比較して,mAPとNDSを5.1ポイント,4.9ポイント改善する。
- 参考スコア(独自算出の注目度): 13.23450145770121
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in camera-based 3D object detection have introduced cross-modal knowledge distillation to bridge the performance gap with LiDAR 3D detectors, leveraging the precise geometric information in LiDAR point clouds. However, existing cross-modal knowledge distillation methods tend to overlook the inherent imperfections of LiDAR, such as the ambiguity of measurements on distant or occluded objects, which should not be transferred to the image detector. To mitigate these imperfections in LiDAR teacher, we propose a novel method that leverages aleatoric uncertainty-free features from ground truth labels. In contrast to conventional label guidance approaches, we approximate the inverse function of the teacher's head to effectively embed label inputs into feature space. This approach provides additional accurate guidance alongside LiDAR teacher, thereby boosting the performance of the image detector. Additionally, we introduce feature partitioning, which effectively transfers knowledge from the teacher modality while preserving the distinctive features of the student, thereby maximizing the potential of both modalities. Experimental results demonstrate that our approach improves mAP and NDS by 5.1 points and 4.9 points compared to the baseline model, proving the effectiveness of our approach. The code is available at https://github.com/sanmin0312/LabelDistill
- Abstract(参考訳): カメラを用いた3Dオブジェクト検出の最近の進歩は、LiDAR点雲の正確な幾何情報を利用して、パフォーマンスギャップをLiDAR 3D検出器でブリッジするために、クロスモーダルな知識蒸留を導入している。
しかし、既存のクロスモーダルな知識蒸留法は、画像検出器に転送すべきでない遠方または隠蔽物体の測定の曖昧さなど、LiDARの固有の欠陥を見逃す傾向にある。
LiDAR教師におけるこれらの不完全性を緩和するために,地上の真理ラベルからアレタリックな不確実性のない特徴を利用する新しい手法を提案する。
従来のラベル誘導手法とは対照的に,教師の頭部の逆関数を近似してラベル入力を特徴空間に効果的に埋め込む。
このアプローチは、LiDAR教師と共に正確なガイダンスを提供するため、画像検出器の性能が向上する。
さらに,教師の特異な特徴を保ちながら,教師のモダリティから知識を効果的に伝達し,両方のモダリティの可能性を最大化する特徴分割を導入する。
実験の結果,本手法はベースラインモデルと比較して,mAPとNDSを5.1ポイント,4.9ポイント改善し,本手法の有効性を実証した。
コードはhttps://github.com/sanmin0312/LabelDistillで公開されている。
関連論文リスト
- Diffusion-SS3D: Diffusion Model for Semi-supervised 3D Object Detection [77.23918785277404]
半教師付き3次元物体検出のための拡散モデルを用いて,擬似ラベルの品質向上に向けた新たな視点であるDiffusion-SS3Dを提案する。
具体的には、劣化した3Dオブジェクトサイズとクラスラベル、分布を生成し、拡散モデルをデノナイズプロセスとして利用し、バウンディングボックス出力を得る。
我々は,ScanNetとSUN RGB-Dベンチマークデータセットの実験を行い,既存手法に対する最先端性能の実現を実証した。
論文 参考訳(メタデータ) (2023-12-05T18:54:03Z) - ODM3D: Alleviating Foreground Sparsity for Semi-Supervised Monocular 3D
Object Detection [15.204935788297226]
ODM3Dフレームワークは、トレーニング中にLiDARドメインの知識を単分子検出器に注入するために、様々なレベルでのクロスモーダルな知識蒸留を必要とする。
既存手法の準最適トレーニングの主要因として,前景の空間空間を同定することにより,LiDAR点に埋め込まれた正確な位置化情報を活用する。
KITTI検証とテストベンチマークの両方で1位にランクインし、教師付きまたは半教師付きである既存のモノクラー手法をはるかに上回っている。
論文 参考訳(メタデータ) (2023-10-28T07:12:09Z) - MonoSKD: General Distillation Framework for Monocular 3D Object
Detection via Spearman Correlation Coefficient [11.48914285491747]
既存のモノクロ3D検出知識蒸留法は、通常、LiDARをイメージプレーンに投射し、それに従って教師ネットワークを訓練する。
本研究では,スピアマン相関係数に基づくモノクル3次元検出のための新しい知識蒸留フレームワークMonoSKDを提案する。
提案フレームワークは,推論計算コストを加算せずに提案するまでの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-17T14:48:02Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Boosting 3D Object Detection by Simulating Multimodality on Point Clouds [51.87740119160152]
本稿では,LiDAR 画像検出器に追従する特徴や応答をシミュレートすることで,単一モダリティ (LiDAR) 3次元物体検出器を高速化する新しい手法を提案する。
このアプローチでは、単一モダリティ検出器をトレーニングする場合のみ、LiDARイメージデータを必要とし、十分にトレーニングされた場合には、推論時にのみLiDARデータが必要である。
nuScenesデータセットの実験結果から,本手法はSOTA LiDARのみの3D検出器よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-06-30T01:44:30Z) - LiDAR Distillation: Bridging the Beam-Induced Domain Gap for 3D Object
Detection [96.63947479020631]
多くの現実世界の応用において、大量生産されたロボットや車両が使用するLiDARポイントは通常、大規模な公開データセットよりもビームが少ない。
異なるLiDARビームによって誘導される領域ギャップをブリッジして3次元物体検出を行うLiDAR蒸留法を提案する。
論文 参考訳(メタデータ) (2022-03-28T17:59:02Z) - MonoDistill: Learning Spatial Features for Monocular 3D Object Detection [80.74622486604886]
本稿では,LiDAR信号からの空間情報を単分子3D検出器に導入するための簡易かつ効果的な手法を提案する。
得られたデータを用いて、ベースラインモデルと同じアーキテクチャで3D検出器をトレーニングする。
実験の結果,提案手法はベースラインモデルの性能を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-01-26T09:21:41Z) - SelfVoxeLO: Self-supervised LiDAR Odometry with Voxel-based Deep Neural
Networks [81.64530401885476]
本稿では,これら2つの課題に対処するために,自己教師型LiDARオドメトリー法(SelfVoxeLO)を提案する。
具体的には、生のLiDARデータを直接処理する3D畳み込みネットワークを提案し、3D幾何パターンをよりよく符号化する特徴を抽出する。
我々は,KITTIとApollo-SouthBayという2つの大規模データセット上での手法の性能を評価する。
論文 参考訳(メタデータ) (2020-10-19T09:23:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。