論文の概要: SimDistill: Simulated Multi-modal Distillation for BEV 3D Object
Detection
- arxiv url: http://arxiv.org/abs/2303.16818v4
- Date: Mon, 8 Jan 2024 06:00:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 00:13:15.999153
- Title: SimDistill: Simulated Multi-modal Distillation for BEV 3D Object
Detection
- Title(参考訳): SimDistill: BEV 3Dオブジェクト検出のためのマルチモーダル蒸留
- Authors: Haimei Zhao, Qiming Zhang, Shanshan Zhao, Zhe Chen, Jing Zhang,
Dacheng Tao
- Abstract要約: 多視点カメラによる3Dオブジェクト検出は低コストで普及しているが、カメラデータのみから正確に3D形状を推定することは依然として困難である。
モデルアーキテクチャと蒸留戦略を慎重に構築し,シミュレートされたマルチモーダル蒸留(SimDistill)法を提案する。
我々のSimDistillは、コスト効率のよいカメラのみの配置を維持しながら、3Dオブジェクト検出のためのより良い特徴表現を学習することができる。
- 参考スコア(独自算出の注目度): 56.24700754048067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-view camera-based 3D object detection has become popular due to its low
cost, but accurately inferring 3D geometry solely from camera data remains
challenging and may lead to inferior performance. Although distilling precise
3D geometry knowledge from LiDAR data could help tackle this challenge, the
benefits of LiDAR information could be greatly hindered by the significant
modality gap between different sensory modalities. To address this issue, we
propose a Simulated multi-modal Distillation (SimDistill) method by carefully
crafting the model architecture and distillation strategy. Specifically, we
devise multi-modal architectures for both teacher and student models, including
a LiDAR-camera fusion-based teacher and a simulated fusion-based student. Owing
to the ``identical'' architecture design, the student can mimic the teacher to
generate multi-modal features with merely multi-view images as input, where a
geometry compensation module is introduced to bridge the modality gap.
Furthermore, we propose a comprehensive multi-modal distillation scheme that
supports intra-modal, cross-modal, and multi-modal fusion distillation
simultaneously in the Bird's-eye-view space. Incorporating them together, our
SimDistill can learn better feature representations for 3D object detection
while maintaining a cost-effective camera-only deployment. Extensive
experiments validate the effectiveness and superiority of SimDistill over
state-of-the-art methods, achieving an improvement of 4.8\% mAP and 4.1\% NDS
over the baseline detector. The source code will be released at
https://github.com/ViTAE-Transformer/SimDistill.
- Abstract(参考訳): 多視点カメラによる3Dオブジェクト検出は低コストで普及しているが、カメラデータのみから正確に3D形状を推定することは依然として困難であり、性能の低下につながる可能性がある。
LiDARデータから正確な3D幾何学的知識を抽出することは、この課題に対処するのに役立つかもしれないが、LiDAR情報の利点は、異なる感覚的モダリティ間の大きなモダリティギャップによって著しく妨げられる可能性がある。
そこで本研究では, モデルアーキテクチャと蒸留戦略を慎重に構築し, シミュレート・マルチモーダル蒸留(SimDistill)法を提案する。
具体的には,lidar-camera fusion-based teacherとsimed fusion-based studentを含む,教師モデルと学生モデルの両方に対してマルチモーダルアーキテクチャを考案する。
この「アイデンティティ」アーキテクチャ設計により、学生は教師を模倣してマルチビューイメージを入力としてマルチモーダルな特徴を生成することができ、そこで幾何学補償モジュールを導入してモダリティギャップを埋めることができる。
さらに,鳥の眼視空間で同時にモード内,クロスモーダル,マルチモーダル融合蒸留をサポートする包括的マルチモーダル蒸留スキームを提案する。
それらを組み合わせることで、コスト効率のよいカメラのみのデプロイメントを維持しながら、3Dオブジェクト検出のためのより良い特徴表現を学習できます。
大規模な実験により、SimDistillの最先端技術に対する効果と優位性を検証し、ベースライン検出器に対する4.8\% mAPと4.1\% NDSの改善を実現した。
ソースコードはhttps://github.com/ViTAE-Transformer/SimDistillで公開される。
関連論文リスト
- Sparse Points to Dense Clouds: Enhancing 3D Detection with Limited LiDAR Data [68.18735997052265]
単分子と点雲に基づく3次元検出の利点を組み合わせたバランスの取れたアプローチを提案する。
本手法では,低コストで低解像度のセンサから得られる3Dポイントを少数必要としている。
3次元検出の精度は最先端の単分子検出法と比較して20%向上する。
論文 参考訳(メタデータ) (2024-04-10T03:54:53Z) - MonoTAKD: Teaching Assistant Knowledge Distillation for Monocular 3D Object Detection [42.4932760909941]
モノクロ3D物体検出は、自律運転において必要不可欠な研究課題である。
Mono3Dの課題は、3Dシーンの形状を理解し、単一の画像から3Dオブジェクト情報を再構築することにある。
従来の方法では、LiDARベースの教師から直接3D情報をカメラベースの生徒に転送する試みがあった。
論文 参考訳(メタデータ) (2024-04-07T10:39:04Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - MonoSKD: General Distillation Framework for Monocular 3D Object
Detection via Spearman Correlation Coefficient [11.48914285491747]
既存のモノクロ3D検出知識蒸留法は、通常、LiDARをイメージプレーンに投射し、それに従って教師ネットワークを訓練する。
本研究では,スピアマン相関係数に基づくモノクル3次元検出のための新しい知識蒸留フレームワークMonoSKDを提案する。
提案フレームワークは,推論計算コストを加算せずに提案するまでの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-17T14:48:02Z) - DistillBEV: Boosting Multi-Camera 3D Object Detection with Cross-Modal
Knowledge Distillation [25.933070263556374]
自律走行車産業における大量生産に費用対効果があるため, マルチカメラ・バードアイビュー(BEV)から学んだ表現に基づく3次元認識がトレンドとなっている。
マルチカメラのBEVとLiDARベースの3Dオブジェクト検出の間には、明確なパフォーマンスギャップがある。
そこで本研究では,多カメラBEVベースの学生検出器の表現学習を,LiDARベースの教師検出器の特徴を模倣するように訓練することで促進することを提案する。
論文 参考訳(メタデータ) (2023-09-26T17:56:21Z) - UniDistill: A Universal Cross-Modality Knowledge Distillation Framework
for 3D Object Detection in Bird's-Eye View [7.1054067852590865]
単一モダリティ検知器の性能向上を目的として, 普遍的クロスモダリティ知識蒸留フレームワーク (UniDistill) を提案する。
UniDistillは、LiDAR-to-camera、カメラ-to-LiDAR、融合-to-LiDAR、融合-to-camera蒸留パスを容易にサポートする。
nuScenesの実験では、UniDistillは学生検出器のmAPとNDSを2.0%3.2%改善することを示した。
論文 参考訳(メタデータ) (2023-03-27T10:50:58Z) - MSeg3D: Multi-modal 3D Semantic Segmentation for Autonomous Driving [15.36416000750147]
マルチモーダルな3次元セマンティックセグメンテーションモデル(MSeg3D)を提案する。
MSeg3Dは依然として堅牢性を示し、LiDARのみのベースラインを改善している。
論文 参考訳(メタデータ) (2023-03-15T13:13:03Z) - CMD: Self-supervised 3D Action Representation Learning with Cross-modal
Mutual Distillation [130.08432609780374]
3D行動認識では、骨格のモダリティの間に豊富な相補的な情報が存在する。
本稿では,CMD(Cross-modal Mutual Distillation)フレームワークを提案する。
提案手法は,既存の自己管理手法より優れ,新しい記録を多数設定する。
論文 参考訳(メタデータ) (2022-08-26T06:06:09Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - MonoDistill: Learning Spatial Features for Monocular 3D Object Detection [80.74622486604886]
本稿では,LiDAR信号からの空間情報を単分子3D検出器に導入するための簡易かつ効果的な手法を提案する。
得られたデータを用いて、ベースラインモデルと同じアーキテクチャで3D検出器をトレーニングする。
実験の結果,提案手法はベースラインモデルの性能を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-01-26T09:21:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。