論文の概要: DistillBEV: Boosting Multi-Camera 3D Object Detection with Cross-Modal
Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2309.15109v1
- Date: Tue, 26 Sep 2023 17:56:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 12:33:39.206860
- Title: DistillBEV: Boosting Multi-Camera 3D Object Detection with Cross-Modal
Knowledge Distillation
- Title(参考訳): distillbev:クロスモーダル知識蒸留によるマルチカメラ3d物体検出の促進
- Authors: Zeyu Wang, Dingwen Li, Chenxu Luo, Cihang Xie, Xiaodong Yang
- Abstract要約: 自律走行車産業における大量生産に費用対効果があるため, マルチカメラ・バードアイビュー(BEV)から学んだ表現に基づく3次元認識がトレンドとなっている。
マルチカメラのBEVとLiDARベースの3Dオブジェクト検出の間には、明確なパフォーマンスギャップがある。
そこで本研究では,多カメラBEVベースの学生検出器の表現学習を,LiDARベースの教師検出器の特徴を模倣するように訓練することで促進することを提案する。
- 参考スコア(独自算出の注目度): 25.933070263556374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D perception based on the representations learned from multi-camera
bird's-eye-view (BEV) is trending as cameras are cost-effective for mass
production in autonomous driving industry. However, there exists a distinct
performance gap between multi-camera BEV and LiDAR based 3D object detection.
One key reason is that LiDAR captures accurate depth and other geometry
measurements, while it is notoriously challenging to infer such 3D information
from merely image input. In this work, we propose to boost the representation
learning of a multi-camera BEV based student detector by training it to imitate
the features of a well-trained LiDAR based teacher detector. We propose
effective balancing strategy to enforce the student to focus on learning the
crucial features from the teacher, and generalize knowledge transfer to
multi-scale layers with temporal fusion. We conduct extensive evaluations on
multiple representative models of multi-camera BEV. Experiments reveal that our
approach renders significant improvement over the student models, leading to
the state-of-the-art performance on the popular benchmark nuScenes.
- Abstract(参考訳): 自律走行車産業における大量生産に費用対効果があるため, マルチカメラバードアイビュー(BEV)から学んだ表現に基づく3次元認識がトレンドとなっている。
しかし、マルチカメラのbevとlidarベースの3dオブジェクト検出には、異なるパフォーマンスギャップがある。
一つの重要な理由は、lidarが正確な深度やその他の幾何学的測定を捉えているのに対して、そのような3d情報を単なる画像入力から推測するのは困難である。
本研究では,マルチカメラのBEVベースの学生検出器の表現学習を,LiDARベースの教師検出器の特徴を模倣するように訓練することで促進することを提案する。
本研究では,教師から重要な特徴を学ぶことに集中するよう学生に強制する効果的なバランス戦略を提案し,時間融合による多層レイヤーへの知識伝達を一般化する。
マルチカメラBEVの複数の代表モデルについて広範な評価を行う。
実験の結果,本手法は学生モデルよりも大幅に改善され,一般的なベンチマーク nuScenes における最先端のパフォーマンスが向上することがわかった。
関連論文リスト
- Instance-aware Multi-Camera 3D Object Detection with Structural Priors
Mining and Self-Boosting Learning [93.71280187657831]
カメラによる鳥眼視(BEV)知覚パラダイムは、自律運転分野において大きな進歩を遂げている。
画像平面のインスタンス認識をBEV検出器内の深度推定プロセスに統合するIA-BEVを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:24:42Z) - Leveraging Vision-Centric Multi-Modal Expertise for 3D Object Detection [66.74183705987276]
本稿では, 見習いにやさしいマルチモーダル専門家と時間融合にやさしい蒸留監督を含む,カメラオンリーの見習いモデルを改善するための枠組みを提案する。
これらの改善により、我々のカメラオンリーの見習いVCD-Aは、63.1%のNDSスコアでnuScenesに新しい最先端技術を設定する。
論文 参考訳(メタデータ) (2023-10-24T09:29:26Z) - CALICO: Self-Supervised Camera-LiDAR Contrastive Pre-training for BEV
Perception [32.91233926771015]
CALICOは、LiDARとカメラバックボーンの両方に対照的な目的を適用する新しいフレームワークである。
我々のフレームワークは、異なるバックボーンとヘッドに合わせることができ、マルチモーダルなBEV知覚のための有望なアプローチとして位置づけられる。
論文 参考訳(メタデータ) (2023-06-01T05:06:56Z) - SimDistill: Simulated Multi-modal Distillation for BEV 3D Object
Detection [56.24700754048067]
多視点カメラによる3Dオブジェクト検出は低コストで普及しているが、カメラデータのみから正確に3D形状を推定することは依然として困難である。
モデルアーキテクチャと蒸留戦略を慎重に構築し,シミュレートされたマルチモーダル蒸留(SimDistill)法を提案する。
我々のSimDistillは、コスト効率のよいカメラのみの配置を維持しながら、3Dオブジェクト検出のためのより良い特徴表現を学習することができる。
論文 参考訳(メタデータ) (2023-03-29T16:08:59Z) - BEV-LGKD: A Unified LiDAR-Guided Knowledge Distillation Framework for
BEV 3D Object Detection [40.45938603642747]
BEV-LGKD という統合フレームワークを提案する。
我々の手法は、RGBモデル間のKDを誘導するためにLiDARポイントのみを使用する。
論文 参考訳(メタデータ) (2022-12-01T16:17:39Z) - BEVDistill: Cross-Modal BEV Distillation for Multi-View 3D Object
Detection [17.526914782562528]
複数の画像ビューから3Dオブジェクトを検出することは、視覚的なシーン理解にとって難しい課題である。
マルチビュー3Dオブジェクト検出のためのクロスモーダルなBEV知識蒸留フレームワークである textbfBEVDistill を提案する。
我々の最良のモデルは、nuScenesテストリーダーボード上で59.4 NDSを達成し、様々な画像ベース検出器と比較して新しい最先端技術を達成する。
論文 参考訳(メタデータ) (2022-11-17T07:26:14Z) - Structured Knowledge Distillation Towards Efficient and Compact
Multi-View 3D Detection [30.74309289544479]
本稿では,視覚のみのBEV検出モデルの効率を向上させるために,構造化知識蒸留フレームワークを提案する。
実験結果から,本手法はnuScenesベンチマークにおいて平均2.16mAPおよび2.27NDSの改善をもたらすことが示された。
論文 参考訳(メタデータ) (2022-11-14T12:51:17Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。