論文の概要: BEVSimDet: Simulated Multi-modal Distillation in Bird's-Eye View for
Multi-view 3D Object Detection
- arxiv url: http://arxiv.org/abs/2303.16818v1
- Date: Wed, 29 Mar 2023 16:08:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-30 14:03:45.998491
- Title: BEVSimDet: Simulated Multi-modal Distillation in Bird's-Eye View for
Multi-view 3D Object Detection
- Title(参考訳): BEVSimDet:多視点3次元物体検出のためのバードアイビューにおけるマルチモーダル蒸留のシミュレーション
- Authors: Haimei Zhao, Qiming Zhang, Shanshan Zhao, Jing Zhang, Dacheng Tao
- Abstract要約: マルチビューカメラによる3Dオブジェクト検出は低コストで普及している。
カメラデータのみから3Dの幾何学を正確に推測することは、まだ難しい。
本稿では, BEVSimDet という, マルチモーダル3次元物体検出手法を提案する。
- 参考スコア(独自算出の注目度): 79.02508809382877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-view camera-based 3D object detection has gained popularity due to its
low cost. But accurately inferring 3D geometry solely from camera data remains
challenging, which impacts model performance. One promising approach to address
this issue is to distill precise 3D geometry knowledge from LiDAR data.
However, transferring knowledge between different sensor modalities is hindered
by the significant modality gap. In this paper, we approach this challenge from
the perspective of both architecture design and knowledge distillation and
present a new simulated multi-modal 3D object detection method named BEVSimDet.
We first introduce a novel framework that includes a LiDAR and camera
fusion-based teacher and a simulated multi-modal student, where the student
simulates multi-modal features with image-only input. To facilitate effective
distillation, we propose a simulated multi-modal distillation scheme that
supports intra-modal, cross-modal, and multi-modal distillation simultaneously.
By combining them together, BEVSimDet can learn better feature representations
for 3D object detection while enjoying cost-effective camera-only deployment.
Experimental results on the challenging nuScenes benchmark demonstrate the
effectiveness and superiority of BEVSimDet over recent representative methods.
The source code will be released.
- Abstract(参考訳): マルチビューカメラベースの3dオブジェクト検出は低コストで人気を集めている。
しかし、カメラデータのみから正確な3D形状を推定することは、モデルの性能に影響を及ぼす。
この問題に対処する1つの有望なアプローチは、LiDARデータから正確な3D幾何学的知識を抽出することである。
しかし、異なるセンサモダリティ間の知識の伝達は、重要なモダリティギャップによって妨げられる。
本稿では,建築設計と知識蒸留の両面からこの課題に取り組み,BEVSimDetという新しいシミュレーション型マルチモーダル3Dオブジェクト検出手法を提案する。
まず,lidarとカメラ融合による教師とシミュレートされたマルチモーダル学習者を含む新しいフレームワークを紹介し,学生は画像のみの入力でマルチモーダル機能をシミュレートする。
有効蒸留を容易にするため, モダル内, クロスモーダル, マルチモーダル蒸留を同時に支援するマルチモーダル蒸留方式を提案する。
bevsimdetはそれらを組み合わせて、3dオブジェクト検出のための優れた機能表現を学習し、費用対効果の高いカメラのみのデプロイを享受できる。
挑戦的なnuScenesベンチマークの実験結果は、最近の代表法よりもBEVSimDetの有効性と優位性を示している。
ソースコードはリリースされます。
関連論文リスト
- Sparse Points to Dense Clouds: Enhancing 3D Detection with Limited LiDAR Data [68.18735997052265]
単分子と点雲に基づく3次元検出の利点を組み合わせたバランスの取れたアプローチを提案する。
本手法では,低コストで低解像度のセンサから得られる3Dポイントを少数必要としている。
3次元検出の精度は最先端の単分子検出法と比較して20%向上する。
論文 参考訳(メタデータ) (2024-04-10T03:54:53Z) - MonoTAKD: Teaching Assistant Knowledge Distillation for Monocular 3D Object Detection [42.4932760909941]
モノクロ3D物体検出は、自律運転において必要不可欠な研究課題である。
Mono3Dの課題は、3Dシーンの形状を理解し、単一の画像から3Dオブジェクト情報を再構築することにある。
従来の方法では、LiDARベースの教師から直接3D情報をカメラベースの生徒に転送する試みがあった。
論文 参考訳(メタデータ) (2024-04-07T10:39:04Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - MonoSKD: General Distillation Framework for Monocular 3D Object
Detection via Spearman Correlation Coefficient [11.48914285491747]
既存のモノクロ3D検出知識蒸留法は、通常、LiDARをイメージプレーンに投射し、それに従って教師ネットワークを訓練する。
本研究では,スピアマン相関係数に基づくモノクル3次元検出のための新しい知識蒸留フレームワークMonoSKDを提案する。
提案フレームワークは,推論計算コストを加算せずに提案するまでの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-17T14:48:02Z) - DistillBEV: Boosting Multi-Camera 3D Object Detection with Cross-Modal
Knowledge Distillation [25.933070263556374]
自律走行車産業における大量生産に費用対効果があるため, マルチカメラ・バードアイビュー(BEV)から学んだ表現に基づく3次元認識がトレンドとなっている。
マルチカメラのBEVとLiDARベースの3Dオブジェクト検出の間には、明確なパフォーマンスギャップがある。
そこで本研究では,多カメラBEVベースの学生検出器の表現学習を,LiDARベースの教師検出器の特徴を模倣するように訓練することで促進することを提案する。
論文 参考訳(メタデータ) (2023-09-26T17:56:21Z) - UniDistill: A Universal Cross-Modality Knowledge Distillation Framework
for 3D Object Detection in Bird's-Eye View [7.1054067852590865]
単一モダリティ検知器の性能向上を目的として, 普遍的クロスモダリティ知識蒸留フレームワーク (UniDistill) を提案する。
UniDistillは、LiDAR-to-camera、カメラ-to-LiDAR、融合-to-LiDAR、融合-to-camera蒸留パスを容易にサポートする。
nuScenesの実験では、UniDistillは学生検出器のmAPとNDSを2.0%3.2%改善することを示した。
論文 参考訳(メタデータ) (2023-03-27T10:50:58Z) - MSeg3D: Multi-modal 3D Semantic Segmentation for Autonomous Driving [15.36416000750147]
マルチモーダルな3次元セマンティックセグメンテーションモデル(MSeg3D)を提案する。
MSeg3Dは依然として堅牢性を示し、LiDARのみのベースラインを改善している。
論文 参考訳(メタデータ) (2023-03-15T13:13:03Z) - CMD: Self-supervised 3D Action Representation Learning with Cross-modal
Mutual Distillation [130.08432609780374]
3D行動認識では、骨格のモダリティの間に豊富な相補的な情報が存在する。
本稿では,CMD(Cross-modal Mutual Distillation)フレームワークを提案する。
提案手法は,既存の自己管理手法より優れ,新しい記録を多数設定する。
論文 参考訳(メタデータ) (2022-08-26T06:06:09Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - MonoDistill: Learning Spatial Features for Monocular 3D Object Detection [80.74622486604886]
本稿では,LiDAR信号からの空間情報を単分子3D検出器に導入するための簡易かつ効果的な手法を提案する。
得られたデータを用いて、ベースラインモデルと同じアーキテクチャで3D検出器をトレーニングする。
実験の結果,提案手法はベースラインモデルの性能を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-01-26T09:21:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。