論文の概要: Cross-Modality Knowledge Distillation Network for Monocular 3D Object
Detection
- arxiv url: http://arxiv.org/abs/2211.07171v1
- Date: Mon, 14 Nov 2022 08:05:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 18:33:14.973749
- Title: Cross-Modality Knowledge Distillation Network for Monocular 3D Object
Detection
- Title(参考訳): モノクロ3次元物体検出のためのクロスモダリティ知識蒸留ネットワーク
- Authors: Yu Hong, Hang Dai and Yong Ding
- Abstract要約: 本稿では,モノクル3次元検出のためのクロスモーダル知識蒸留(CMKD)ネットワークを提案し,その知識をLiDARモダリティから画像モダリティへ効率よく直接転送する。
CMKDは、KITTI$test$setと$val$setの両方で発行されたモノクロ3D検出器の中で1st$をランク付けしている。
- 参考スコア(独自算出の注目度): 18.653581233103157
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Leveraging LiDAR-based detectors or real LiDAR point data to guide monocular
3D detection has brought significant improvement, e.g., Pseudo-LiDAR methods.
However, the existing methods usually apply non-end-to-end training strategies
and insufficiently leverage the LiDAR information, where the rich potential of
the LiDAR data has not been well exploited. In this paper, we propose the
Cross-Modality Knowledge Distillation (CMKD) network for monocular 3D detection
to efficiently and directly transfer the knowledge from LiDAR modality to image
modality on both features and responses. Moreover, we further extend CMKD as a
semi-supervised training framework by distilling knowledge from large-scale
unlabeled data and significantly boost the performance. Until submission, CMKD
ranks $1^{st}$ among the monocular 3D detectors with publications on both KITTI
$test$ set and Waymo $val$ set with significant performance gains compared to
previous state-of-the-art methods.
- Abstract(参考訳): LiDARをベースとした検出器や実際のLiDAR点データをモノクル3D検出のガイドに利用することで、例えばPseudo-LiDAR法のような大幅な改善が行われた。
しかし、既存の手法は通常、非エンドツーエンドのトレーニング戦略を適用し、LiDARデータのリッチなポテンシャルが十分に活用されていないLiDAR情報を不十分に活用する。
本稿では,lidarモダリティから画像モダリティへ,特徴と応答の両方を効率的に直接伝達するために,単眼3次元検出のためのクロスモダリティ知識蒸留(cmkd)ネットワークを提案する。
さらに,大規模未ラベルデータから知識を抽出することにより,半教師付きトレーニングフレームワークとしてのCMKDをさらに拡張し,性能を大幅に向上させる。
提出まで、CMKDはKITTI$test$setとWaymo$val$setの両方で発行されたモノクロ3D検出器の中で、従来の最先端の方法と比較して大幅にパフォーマンスが向上した。
関連論文リスト
- Multi-Modal Data-Efficient 3D Scene Understanding for Autonomous Driving [58.16024314532443]
我々は、異なるLiDARスキャンからレーザービーム操作を統合するフレームワークであるLaserMix++を導入し、データ効率の学習を支援するためにLiDAR-カメラ対応を組み込んだ。
結果は、LaserMix++が完全に教師付き代替よりも優れており、5倍のアノテーションで同等の精度を実現していることを示している。
この大幅な進歩は、LiDARベースの3Dシーン理解システムにおける広範囲なラベル付きデータへの依存を減らすための半教師付きアプローチの可能性を示している。
論文 参考訳(メタデータ) (2024-05-08T17:59:53Z) - Better Monocular 3D Detectors with LiDAR from the Past [64.6759926054061]
カメラベースの3D検出器は、画像の奥行きのあいまいさのため、LiDARベースの検出器に比べて性能が劣ることが多い。
本研究では,未ラベルの歴史的LiDARデータを活用することにより,単分子3D検出器の改良を図る。
複数の最先端モデルやデータセットに対して,9.66ミリ秒の追加レイテンシとストレージコストの低い,一貫性と大幅なパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2024-04-08T01:38:43Z) - ODM3D: Alleviating Foreground Sparsity for Semi-Supervised Monocular 3D
Object Detection [15.204935788297226]
ODM3Dフレームワークは、トレーニング中にLiDARドメインの知識を単分子検出器に注入するために、様々なレベルでのクロスモーダルな知識蒸留を必要とする。
既存手法の準最適トレーニングの主要因として,前景の空間空間を同定することにより,LiDAR点に埋め込まれた正確な位置化情報を活用する。
KITTI検証とテストベンチマークの両方で1位にランクインし、教師付きまたは半教師付きである既存のモノクラー手法をはるかに上回っている。
論文 参考訳(メタデータ) (2023-10-28T07:12:09Z) - Monocular 3D Object Detection with LiDAR Guided Semi Supervised Active
Learning [2.16117348324501]
LiDAR誘導を用いたモノクロ3次元物体検出のための新しい半教師付き能動学習フレームワーク(SSAL)を提案する。
我々はLiDARを用いて、単分子型3D検出器のデータ選択とトレーニングを、推論フェーズのオーバーヘッドを伴わずにガイドする。
トレーニング戦略は,BEV平均精度(AP)を2.02倍に向上させることで,KITTI 3Dと鳥眼視(BEV)単眼物体検出の公式ベンチマークでトップとなる。
論文 参考訳(メタデータ) (2023-07-17T11:55:27Z) - Boosting 3D Object Detection by Simulating Multimodality on Point Clouds [51.87740119160152]
本稿では,LiDAR 画像検出器に追従する特徴や応答をシミュレートすることで,単一モダリティ (LiDAR) 3次元物体検出器を高速化する新しい手法を提案する。
このアプローチでは、単一モダリティ検出器をトレーニングする場合のみ、LiDARイメージデータを必要とし、十分にトレーニングされた場合には、推論時にのみLiDARデータが必要である。
nuScenesデータセットの実験結果から,本手法はSOTA LiDARのみの3D検出器よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-06-30T01:44:30Z) - Cost-Aware Evaluation and Model Scaling for LiDAR-Based 3D Object
Detection [34.34668878632354]
本研究は,LiDARを用いた3次元物体検出器の低コスト評価を行う。
具体的には、単純なグリッドベースのワンステージ検出器であるSECONDに焦点を当てる。
大規模SECONDのファミリーとVoxel R-CNNやPV-RCNN++といった最近の3D検出手法を比較した。
論文 参考訳(メタデータ) (2022-05-02T18:16:17Z) - LiDAR Distillation: Bridging the Beam-Induced Domain Gap for 3D Object
Detection [96.63947479020631]
多くの現実世界の応用において、大量生産されたロボットや車両が使用するLiDARポイントは通常、大規模な公開データセットよりもビームが少ない。
異なるLiDARビームによって誘導される領域ギャップをブリッジして3次元物体検出を行うLiDAR蒸留法を提案する。
論文 参考訳(メタデータ) (2022-03-28T17:59:02Z) - MonoDistill: Learning Spatial Features for Monocular 3D Object Detection [80.74622486604886]
本稿では,LiDAR信号からの空間情報を単分子3D検出器に導入するための簡易かつ効果的な手法を提案する。
得られたデータを用いて、ベースラインモデルと同じアーキテクチャで3D検出器をトレーニングする。
実験の結果,提案手法はベースラインモデルの性能を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-01-26T09:21:41Z) - Advancing Self-supervised Monocular Depth Learning with Sparse LiDAR [22.202192422883122]
本稿では,自己教師付き単分子深度学習を推進するための2段階ネットワークを提案する。
本モデルでは,単色画像特徴と疎LiDAR特徴を融合させて初期深度マップを推定する。
我々のモデルは、下流タスクのモノクロ3Dオブジェクト検出において、最先端のスパース-LiDAR法(Pseudo-LiDAR++)を68%以上向上させる。
論文 参考訳(メタデータ) (2021-09-20T15:28:36Z) - SelfVoxeLO: Self-supervised LiDAR Odometry with Voxel-based Deep Neural
Networks [81.64530401885476]
本稿では,これら2つの課題に対処するために,自己教師型LiDARオドメトリー法(SelfVoxeLO)を提案する。
具体的には、生のLiDARデータを直接処理する3D畳み込みネットワークを提案し、3D幾何パターンをよりよく符号化する特徴を抽出する。
我々は,KITTIとApollo-SouthBayという2つの大規模データセット上での手法の性能を評価する。
論文 参考訳(メタデータ) (2020-10-19T09:23:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。