論文の概要: BEV-LGKD: A Unified LiDAR-Guided Knowledge Distillation Framework for
BEV 3D Object Detection
- arxiv url: http://arxiv.org/abs/2212.00623v1
- Date: Thu, 1 Dec 2022 16:17:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 16:21:52.244074
- Title: BEV-LGKD: A Unified LiDAR-Guided Knowledge Distillation Framework for
BEV 3D Object Detection
- Title(参考訳): BEV-LGKD:BEV3Dオブジェクト検出のための統一LiDAR誘導知識蒸留フレームワーク
- Authors: Jianing Li, Ming Lu, Jiaming Liu, Yandong Guo, Li Du, Shanghang Zhang
- Abstract要約: BEV-LGKD という統合フレームワークを提案する。
我々の手法は、RGBモデル間のKDを誘導するためにLiDARポイントのみを使用する。
- 参考スコア(独自算出の注目度): 40.45938603642747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Bird's-Eye-View (BEV) representation has gained increasing
attention in multi-view 3D object detection, which has demonstrated promising
applications in autonomous driving. Although multi-view camera systems can be
deployed at low cost, the lack of depth information makes current approaches
adopt large models for good performance. Therefore, it is essential to improve
the efficiency of BEV 3D object detection. Knowledge Distillation (KD) is one
of the most practical techniques to train efficient yet accurate models.
However, BEV KD is still under-explored to the best of our knowledge. Different
from image classification tasks, BEV 3D object detection approaches are more
complicated and consist of several components. In this paper, we propose a
unified framework named BEV-LGKD to transfer the knowledge in the
teacher-student manner. However, directly applying the teacher-student paradigm
to BEV features fails to achieve satisfying results due to heavy background
information in RGB cameras. To solve this problem, we propose to leverage the
localization advantage of LiDAR points. Specifically, we transform the LiDAR
points to BEV space and generate the foreground mask and view-dependent mask
for the teacher-student paradigm. It is to be noted that our method only uses
LiDAR points to guide the KD between RGB models. As the quality of depth
estimation is crucial for BEV perception, we further introduce depth
distillation to our framework. Our unified framework is simple yet effective
and achieves a significant performance boost. Code will be released.
- Abstract(参考訳): 近年,Bird's-Eye-View (BEV) 表現は多視点3Dオブジェクト検出において注目を集めており,自動運転における有望な応用を実証している。
マルチビューカメラシステムは低コストで展開できるが、深度情報がないため、現在のアプローチでは、優れた性能のために大きなモデルを採用することができる。
したがって、BEV 3Dオブジェクト検出の効率を向上させることが不可欠である。
知識蒸留(KD)は、効率的で正確なモデルを訓練する最も実践的な手法の1つである。
しかしながら、BEV KDは、私たちの知る限りでは未熟です。
画像分類タスクと異なり、BEV 3Dオブジェクト検出アプローチはより複雑で、複数のコンポーネントから構成される。
そこで本稿では,教師・教師の方法で知識を伝達するための統合フレームワークbev-lgkdを提案する。
しかし,教師/学生のパラダイムをBEV機能に直接適用しても,RGBカメラの背景情報が大きいため,満足な結果が得られない。
そこで本研究では,LiDAR点の局所化の利点を活用することを提案する。
具体的には、LiDARの点をBEV空間に変換し、教師-学生パラダイムのための前景マスクとビュー依存マスクを生成する。
なお,本手法では,RGBモデル間のKD誘導にLiDAR点のみを用いる。
BEVの認識には深度推定の質が不可欠であるため,本フレームワークにさらに深度蒸留を導入する。
当社の統一フレームワークはシンプルかつ効果的であり、大幅なパフォーマンス向上を実現しています。
コードはリリースされる。
関連論文リスト
- Instance-aware Multi-Camera 3D Object Detection with Structural Priors
Mining and Self-Boosting Learning [93.71280187657831]
カメラによる鳥眼視(BEV)知覚パラダイムは、自律運転分野において大きな進歩を遂げている。
画像平面のインスタンス認識をBEV検出器内の深度推定プロセスに統合するIA-BEVを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:24:42Z) - ODM3D: Alleviating Foreground Sparsity for Semi-Supervised Monocular 3D
Object Detection [15.204935788297226]
ODM3Dフレームワークは、トレーニング中にLiDARドメインの知識を単分子検出器に注入するために、様々なレベルでのクロスモーダルな知識蒸留を必要とする。
既存手法の準最適トレーニングの主要因として,前景の空間空間を同定することにより,LiDAR点に埋め込まれた正確な位置化情報を活用する。
KITTI検証とテストベンチマークの両方で1位にランクインし、教師付きまたは半教師付きである既存のモノクラー手法をはるかに上回っている。
論文 参考訳(メタデータ) (2023-10-28T07:12:09Z) - DistillBEV: Boosting Multi-Camera 3D Object Detection with Cross-Modal
Knowledge Distillation [25.933070263556374]
自律走行車産業における大量生産に費用対効果があるため, マルチカメラ・バードアイビュー(BEV)から学んだ表現に基づく3次元認識がトレンドとなっている。
マルチカメラのBEVとLiDARベースの3Dオブジェクト検出の間には、明確なパフォーマンスギャップがある。
そこで本研究では,多カメラBEVベースの学生検出器の表現学習を,LiDARベースの教師検出器の特徴を模倣するように訓練することで促進することを提案する。
論文 参考訳(メタデータ) (2023-09-26T17:56:21Z) - CALICO: Self-Supervised Camera-LiDAR Contrastive Pre-training for BEV
Perception [32.91233926771015]
CALICOは、LiDARとカメラバックボーンの両方に対照的な目的を適用する新しいフレームワークである。
我々のフレームワークは、異なるバックボーンとヘッドに合わせることができ、マルチモーダルなBEV知覚のための有望なアプローチとして位置づけられる。
論文 参考訳(メタデータ) (2023-06-01T05:06:56Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - SimDistill: Simulated Multi-modal Distillation for BEV 3D Object
Detection [56.24700754048067]
多視点カメラによる3Dオブジェクト検出は低コストで普及しているが、カメラデータのみから正確に3D形状を推定することは依然として困難である。
モデルアーキテクチャと蒸留戦略を慎重に構築し,シミュレートされたマルチモーダル蒸留(SimDistill)法を提案する。
我々のSimDistillは、コスト効率のよいカメラのみの配置を維持しながら、3Dオブジェクト検出のためのより良い特徴表現を学習することができる。
論文 参考訳(メタデータ) (2023-03-29T16:08:59Z) - BEV-MAE: Bird's Eye View Masked Autoencoders for Point Cloud
Pre-training in Autonomous Driving Scenarios [51.285561119993105]
自律運転におけるLiDARに基づく3Dオブジェクト検出のための,効率的なマスク付きオートエンコーダ事前学習フレームワークであるBEV-MAEを提案する。
具体的には、3Dエンコーダ学習特徴表現を導くために,鳥の目視(BEV)誘導マスキング戦略を提案する。
学習可能なポイントトークンを導入し、3Dエンコーダの一貫性のある受容的フィールドサイズを維持する。
論文 参考訳(メタデータ) (2022-12-12T08:15:03Z) - BEVDistill: Cross-Modal BEV Distillation for Multi-View 3D Object
Detection [17.526914782562528]
複数の画像ビューから3Dオブジェクトを検出することは、視覚的なシーン理解にとって難しい課題である。
マルチビュー3Dオブジェクト検出のためのクロスモーダルなBEV知識蒸留フレームワークである textbfBEVDistill を提案する。
我々の最良のモデルは、nuScenesテストリーダーボード上で59.4 NDSを達成し、様々な画像ベース検出器と比較して新しい最先端技術を達成する。
論文 参考訳(メタデータ) (2022-11-17T07:26:14Z) - Structured Knowledge Distillation Towards Efficient and Compact
Multi-View 3D Detection [30.74309289544479]
本稿では,視覚のみのBEV検出モデルの効率を向上させるために,構造化知識蒸留フレームワークを提案する。
実験結果から,本手法はnuScenesベンチマークにおいて平均2.16mAPおよび2.27NDSの改善をもたらすことが示された。
論文 参考訳(メタデータ) (2022-11-14T12:51:17Z) - M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified
Birds-Eye View Representation [145.6041893646006]
M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。
M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
論文 参考訳(メタデータ) (2022-04-11T13:43:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。