論文の概要: Knowledge Distillation from 3D to Bird's-Eye-View for LiDAR Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2304.11393v1
- Date: Sat, 22 Apr 2023 13:03:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 18:37:54.794530
- Title: Knowledge Distillation from 3D to Bird's-Eye-View for LiDAR Semantic
Segmentation
- Title(参考訳): lidarセマンティクスセグメンテーションのための3dから鳥眼視への知識蒸留
- Authors: Feng Jiang, Heng Gao, Shoumeng Qiu, Haiqiang Zhang, Ru Wan and Jian Pu
- Abstract要約: 本研究では,3次元ボクセルモデルからBEVモデルへ豊富な知識を伝達する有効な3D-to-BEV知識蒸留法を開発した。
本フレームワークは,主にボクセル-ピラー蒸留モジュールとラベル-重蒸留モジュールの2つのモジュールから構成される。
ラベル重量の蒸留は、より高い情報を持つ領域により注意を払うのに役立つ。
- 参考スコア(独自算出の注目度): 6.326177388323946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LiDAR point cloud segmentation is one of the most fundamental tasks for
autonomous driving scene understanding. However, it is difficult for existing
models to achieve both high inference speed and accuracy simultaneously. For
example, voxel-based methods perform well in accuracy, while Bird's-Eye-View
(BEV)-based methods can achieve real-time inference. To overcome this issue, we
develop an effective 3D-to-BEV knowledge distillation method that transfers
rich knowledge from 3D voxel-based models to BEV-based models. Our framework
mainly consists of two modules: the voxel-to-pillar distillation module and the
label-weight distillation module. Voxel-to-pillar distillation distills sparse
3D features to BEV features for middle layers to make the BEV-based model aware
of more structural and geometric information. Label-weight distillation helps
the model pay more attention to regions with more height information. Finally,
we conduct experiments on the SemanticKITTI dataset and Paris-Lille-3D. The
results on SemanticKITTI show more than 5% improvement on the test set,
especially for classes such as motorcycle and person, with more than 15%
improvement. The code can be accessed at
https://github.com/fengjiang5/Knowledge-Distillation-from-Cylinder3D-to-PolarNet.
- Abstract(参考訳): LiDARポイントクラウドセグメンテーションは、自動運転シーン理解の最も基本的なタスクの1つである。
しかし、既存のモデルが高い推論速度と精度を同時に達成することは困難である。
例えば、Voxel-based method は精度よく動作し、Bird's-Eye-View (BEV) ベースのメソッドはリアルタイムな推論を実現できる。
本研究では,3dボクセルモデルからbevモデルへ豊富な知識を伝達する効果的な3d-bev知識蒸留法を開発した。
本フレームワークは,主にボクセル-ピラー蒸留モジュールとラベル-重蒸留モジュールの2つのモジュールから構成される。
Voxel-to-pillar蒸留は、中間層のためのBEV機能にスパース3D機能を蒸留し、BEVベースのモデルがより構造的および幾何学的な情報を認識できるようにする。
ラベル重量の蒸留は、より高い情報を持つ領域により注意を払うのに役立つ。
最後に,SemanticKITTIデータセットとParis-Lille-3Dの実験を行った。
semantickittiの結果は、特にオートバイや人といったクラスでテストセットが5%以上改善され、15%以上改善されていることを示している。
コードはhttps://github.com/fengjiang5/Knowledge-Distillation-from-Cylinder3D-to-PolarNetでアクセスできる。
関連論文リスト
- MambaBEV: An efficient 3D detection model with Mamba2 [4.782473183865045]
本稿では,mamba2を用いたBEV 3Dオブジェクト検出モデルを提案する。
また、モデルの性能をテストするためにエンド・ツー・エンドの自動運転パラダイムを適用します。
論文 参考訳(メタデータ) (2024-10-16T15:37:29Z) - FSD-BEV: Foreground Self-Distillation for Multi-view 3D Object Detection [33.225938984092274]
本稿では,分散の相違を効果的に回避するFSD方式を提案する。
また2つのポイントクラウド拡張(PCI)戦略を設計し、ポイントクラウドの幅を補う。
マルチスケール・フォアグラウンド・エンハンスメント(MSFE)モジュールを開発し,マルチスケール・フォアグラウンドの特徴を抽出・融合する。
論文 参考訳(メタデータ) (2024-07-14T09:39:44Z) - Three Pillars improving Vision Foundation Model Distillation for Lidar [61.56521056618988]
蒸留における3つの柱の効果について検討した。3Dバックボーン,2Dバックボーン,および事前学習データセットである。
ScaLRと呼ばれるスケーラブルな蒸留法により、2Dと3Dのバックボーンのスケーリングと多様なデータセットの事前トレーニングにより、機能品質が大幅に向上することを示した。
論文 参考訳(メタデータ) (2023-10-26T15:54:43Z) - SimDistill: Simulated Multi-modal Distillation for BEV 3D Object
Detection [56.24700754048067]
多視点カメラによる3Dオブジェクト検出は低コストで普及しているが、カメラデータのみから正確に3D形状を推定することは依然として困難である。
モデルアーキテクチャと蒸留戦略を慎重に構築し,シミュレートされたマルチモーダル蒸留(SimDistill)法を提案する。
我々のSimDistillは、コスト効率のよいカメラのみの配置を維持しながら、3Dオブジェクト検出のためのより良い特徴表現を学習することができる。
論文 参考訳(メタデータ) (2023-03-29T16:08:59Z) - TiG-BEV: Multi-view BEV 3D Object Detection via Target Inner-Geometry
Learning [7.6887888234987125]
本稿では,LiDARモダリティからカメラベースBEV検出器へのターゲット内形状の学習手法を提案する。
TiG-BEVは、BEVDepthを+2.3% NDS、+2.4% mAP、BEVDetを+9.1% NDS、+10.3% mAPで効果的に増強することができる。
論文 参考訳(メタデータ) (2022-12-28T17:53:43Z) - 3D Point Cloud Pre-training with Knowledge Distillation from 2D Images [128.40422211090078]
本稿では,2次元表現学習モデルから直接知識を取得するために,3次元ポイントクラウド事前学習モデルの知識蒸留手法を提案する。
具体的には、3Dポイントクラウドから概念特徴を抽出し、2D画像からの意味情報と比較するクロスアテンション機構を提案する。
このスキームでは,2次元教師モデルに含まれるリッチな情報から,クラウド事前学習モデルを直接学習する。
論文 参考訳(メタデータ) (2022-12-17T23:21:04Z) - BEV-MAE: Bird's Eye View Masked Autoencoders for Point Cloud
Pre-training in Autonomous Driving Scenarios [51.285561119993105]
自律運転におけるLiDARに基づく3Dオブジェクト検出のための,効率的なマスク付きオートエンコーダ事前学習フレームワークであるBEV-MAEを提案する。
具体的には、3Dエンコーダ学習特徴表現を導くために,鳥の目視(BEV)誘導マスキング戦略を提案する。
学習可能なポイントトークンを導入し、3Dエンコーダの一貫性のある受容的フィールドサイズを維持する。
論文 参考訳(メタデータ) (2022-12-12T08:15:03Z) - BEV-LGKD: A Unified LiDAR-Guided Knowledge Distillation Framework for
BEV 3D Object Detection [40.45938603642747]
BEV-LGKD という統合フレームワークを提案する。
我々の手法は、RGBモデル間のKDを誘導するためにLiDARポイントのみを使用する。
論文 参考訳(メタデータ) (2022-12-01T16:17:39Z) - Point-to-Voxel Knowledge Distillation for LiDAR Semantic Segmentation [74.67594286008317]
本稿では,大きな教師モデルから,LiDARセマンティックセグメンテーションのためのスリムな学生ネットワークへの知識の抽出の問題に対処する。
本稿では,点レベルとボクセルレベルの両方から隠れた知識を伝達するPVDを提案する。
論文 参考訳(メタデータ) (2022-06-05T05:28:32Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation [105.96557764248846]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。