論文の概要: UniDistill: A Universal Cross-Modality Knowledge Distillation Framework
for 3D Object Detection in Bird's-Eye View
- arxiv url: http://arxiv.org/abs/2303.15083v1
- Date: Mon, 27 Mar 2023 10:50:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 16:02:00.999251
- Title: UniDistill: A Universal Cross-Modality Knowledge Distillation Framework
for 3D Object Detection in Bird's-Eye View
- Title(参考訳): unidistill:バードズ・アイ・ビューにおける3次元物体検出のための普遍的クロスモダリティ知識蒸留フレームワーク
- Authors: Shengchao Zhou, Weizhou Liu, Chen Hu, Shuchang Zhou, and Chao Ma
- Abstract要約: 単一モダリティ検知器の性能向上を目的として, 普遍的クロスモダリティ知識蒸留フレームワーク (UniDistill) を提案する。
UniDistillは、LiDAR-to-camera、カメラ-to-LiDAR、融合-to-LiDAR、融合-to-camera蒸留パスを容易にサポートする。
nuScenesの実験では、UniDistillは学生検出器のmAPとNDSを2.0%3.2%改善することを示した。
- 参考スコア(独自算出の注目度): 7.1054067852590865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of 3D object detection for autonomous driving, the sensor
portfolio including multi-modality and single-modality is diverse and complex.
Since the multi-modal methods have system complexity while the accuracy of
single-modal ones is relatively low, how to make a tradeoff between them is
difficult. In this work, we propose a universal cross-modality knowledge
distillation framework (UniDistill) to improve the performance of
single-modality detectors. Specifically, during training, UniDistill projects
the features of both the teacher and the student detector into Bird's-Eye-View
(BEV), which is a friendly representation for different modalities. Then, three
distillation losses are calculated to sparsely align the foreground features,
helping the student learn from the teacher without introducing additional cost
during inference. Taking advantage of the similar detection paradigm of
different detectors in BEV, UniDistill easily supports LiDAR-to-camera,
camera-to-LiDAR, fusion-to-LiDAR and fusion-to-camera distillation paths.
Furthermore, the three distillation losses can filter the effect of misaligned
background information and balance between objects of different sizes,
improving the distillation effectiveness. Extensive experiments on nuScenes
demonstrate that UniDistill effectively improves the mAP and NDS of student
detectors by 2.0%~3.2%.
- Abstract(参考訳): 自律運転のための3Dオブジェクト検出の分野では、マルチモダリティと単一モダリティを含むセンサーポートフォリオは多様で複雑である。
マルチモーダル法はシステム複雑性を持ち, 単一モーダル法の精度は比較的低いため, それらのトレードオフをいかに行うかは難しい。
本研究では, 単一モダリティ検出器の性能向上を図るために, 普遍的クロスモーダル知識蒸留フレームワーク (UniDistill) を提案する。
特に、トレーニング中にUniDistillは、教師と学生の検出器の両方の特徴を、異なるモダリティのフレンドリーな表現であるBird's-Eye-View (BEV)に投影する。
そして、3つの蒸留損失を算出し、前景の特徴を緩やかに整列させ、推論中に追加のコストを伴わずに教師から学ぶのを助ける。
BEVの異なる検出器の同様の検出パラダイムを利用して、UniDistillは容易にLiDAR-to-camera、カメラ-to-LiDAR、融合-to-LiDAR、融合-to-camera蒸留パスをサポートする。
さらに, 3つの蒸留損失は, 背景情報の不整合の影響や, 異なる大きさの物体間のバランスをフィルタリングし, 蒸留効果を向上させる。
nuScenesの大規模な実験により、UniDistillは学生検出器のmAPとNDSを2.0%〜3.2%改善することを示した。
関連論文リスト
- Multi-Modal Data-Efficient 3D Scene Understanding for Autonomous Driving [58.16024314532443]
我々は、異なるLiDARスキャンからレーザービーム操作を統合するフレームワークであるLaserMix++を導入し、データ効率の学習を支援するためにLiDAR-カメラ対応を組み込んだ。
結果は、LaserMix++が完全に教師付き代替よりも優れており、5倍のアノテーションで同等の精度を実現していることを示している。
この大幅な進歩は、LiDARベースの3Dシーン理解システムにおける広範囲なラベル付きデータへの依存を減らすための半教師付きアプローチの可能性を示している。
論文 参考訳(メタデータ) (2024-05-08T17:59:53Z) - OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation [67.56268991234371]
OV-Uni3DETRは、様々なシナリオにおける最先端のパフォーマンスを達成し、既存のメソッドを平均6%以上上回っている。
コードと事前訓練されたモデルは、後にリリースされる。
論文 参考訳(メタデータ) (2024-03-28T17:05:04Z) - Leveraging Vision-Centric Multi-Modal Expertise for 3D Object Detection [66.74183705987276]
本稿では, 見習いにやさしいマルチモーダル専門家と時間融合にやさしい蒸留監督を含む,カメラオンリーの見習いモデルを改善するための枠組みを提案する。
これらの改善により、我々のカメラオンリーの見習いVCD-Aは、63.1%のNDSスコアでnuScenesに新しい最先端技術を設定する。
論文 参考訳(メタデータ) (2023-10-24T09:29:26Z) - DistillBEV: Boosting Multi-Camera 3D Object Detection with Cross-Modal
Knowledge Distillation [25.933070263556374]
自律走行車産業における大量生産に費用対効果があるため, マルチカメラ・バードアイビュー(BEV)から学んだ表現に基づく3次元認識がトレンドとなっている。
マルチカメラのBEVとLiDARベースの3Dオブジェクト検出の間には、明確なパフォーマンスギャップがある。
そこで本研究では,多カメラBEVベースの学生検出器の表現学習を,LiDARベースの教師検出器の特徴を模倣するように訓練することで促進することを提案する。
論文 参考訳(メタデータ) (2023-09-26T17:56:21Z) - SimDistill: Simulated Multi-modal Distillation for BEV 3D Object
Detection [56.24700754048067]
多視点カメラによる3Dオブジェクト検出は低コストで普及しているが、カメラデータのみから正確に3D形状を推定することは依然として困難である。
モデルアーキテクチャと蒸留戦略を慎重に構築し,シミュレートされたマルチモーダル蒸留(SimDistill)法を提案する。
我々のSimDistillは、コスト効率のよいカメラのみの配置を維持しながら、3Dオブジェクト検出のためのより良い特徴表現を学習することができる。
論文 参考訳(メタデータ) (2023-03-29T16:08:59Z) - X$^3$KD: Knowledge Distillation Across Modalities, Tasks and Stages for
Multi-Camera 3D Object Detection [45.32989526953387]
本稿では,X$3$KDについて紹介する。X$3$KDはマルチカメラ3DODのための様々なモダリティ,タスク,ステージにまたがる総合的な知識蒸留フレームワークである。
変換後,マルチカメラ特徴の3次元世界表現を改善するために,クロスモーダルな特徴蒸留 (X-FD) と対角訓練 (X-AT) を適用した。
最終的なX$3$KDモデルは、nuScenesとデータセットに関する従来の最先端アプローチよりも優れています。
論文 参考訳(メタデータ) (2023-03-03T20:29:49Z) - Structured Knowledge Distillation Towards Efficient and Compact
Multi-View 3D Detection [30.74309289544479]
本稿では,視覚のみのBEV検出モデルの効率を向上させるために,構造化知識蒸留フレームワークを提案する。
実験結果から,本手法はnuScenesベンチマークにおいて平均2.16mAPおよび2.27NDSの改善をもたらすことが示された。
論文 参考訳(メタデータ) (2022-11-14T12:51:17Z) - Boosting 3D Object Detection by Simulating Multimodality on Point Clouds [51.87740119160152]
本稿では,LiDAR 画像検出器に追従する特徴や応答をシミュレートすることで,単一モダリティ (LiDAR) 3次元物体検出器を高速化する新しい手法を提案する。
このアプローチでは、単一モダリティ検出器をトレーニングする場合のみ、LiDARイメージデータを必要とし、十分にトレーニングされた場合には、推論時にのみLiDARデータが必要である。
nuScenesデータセットの実験結果から,本手法はSOTA LiDARのみの3D検出器よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-06-30T01:44:30Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。