論文の概要: BEVDistill: Cross-Modal BEV Distillation for Multi-View 3D Object
Detection
- arxiv url: http://arxiv.org/abs/2211.09386v1
- Date: Thu, 17 Nov 2022 07:26:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 16:20:18.341955
- Title: BEVDistill: Cross-Modal BEV Distillation for Multi-View 3D Object
Detection
- Title(参考訳): BEVDistill:マルチビュー3Dオブジェクト検出のためのクロスモーダルBEV蒸留
- Authors: Zehui Chen, Zhenyu Li, Shiquan Zhang, Liangji Fang, Qinhong Jiang,
Feng Zhao
- Abstract要約: 複数の画像ビューから3Dオブジェクトを検出することは、視覚的なシーン理解にとって難しい課題である。
マルチビュー3Dオブジェクト検出のためのクロスモーダルなBEV知識蒸留フレームワークである textbfBEVDistill を提案する。
我々の最良のモデルは、nuScenesテストリーダーボード上で59.4 NDSを達成し、様々な画像ベース検出器と比較して新しい最先端技術を達成する。
- 参考スコア(独自算出の注目度): 17.526914782562528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D object detection from multiple image views is a fundamental and
challenging task for visual scene understanding. Owing to its low cost and high
efficiency, multi-view 3D object detection has demonstrated promising
application prospects. However, accurately detecting objects through
perspective views is extremely difficult due to the lack of depth information.
Current approaches tend to adopt heavy backbones for image encoders, making
them inapplicable for real-world deployment. Different from the images, LiDAR
points are superior in providing spatial cues, resulting in highly precise
localization. In this paper, we explore the incorporation of LiDAR-based
detectors for multi-view 3D object detection. Instead of directly training a
depth prediction network, we unify the image and LiDAR features in the
Bird-Eye-View (BEV) space and adaptively transfer knowledge across
non-homogenous representations in a teacher-student paradigm. To this end, we
propose \textbf{BEVDistill}, a cross-modal BEV knowledge distillation (KD)
framework for multi-view 3D object detection. Extensive experiments demonstrate
that the proposed method outperforms current KD approaches on a
highly-competitive baseline, BEVFormer, without introducing any extra cost in
the inference phase. Notably, our best model achieves 59.4 NDS on the nuScenes
test leaderboard, achieving new state-of-the-art in comparison with various
image-based detectors. Code will be available at
https://github.com/zehuichen123/BEVDistill.
- Abstract(参考訳): 複数の画像ビューから3Dオブジェクトを検出することは、視覚的シーン理解の基本的な課題である。
低コストで高効率な3Dオブジェクト検出は、将来有望な応用可能性を示している。
しかし、深度情報がないため、視界ビューによる物体の正確な検出は極めて困難である。
現在のアプローチでは、イメージエンコーダに重いバックボーンを採用する傾向があり、実際のデプロイメントには適用できない。
画像と異なり、LiDARポイントは空間的手がかりを提供するのに優れている。
本稿では,多視点3Dオブジェクト検出のためのLiDARベースの検出器の導入について検討する。
深度予測ネットワークを直接訓練する代わりに,Bird-Eye-View(BEV)空間における画像とLiDAR機能を統一し,教師-学生パラダイムにおける非同種表現間で知識を適応的に伝達する。
そこで我々は,多視点3Dオブジェクト検出のためのクロスモーダルなBEV知識蒸留(KD)フレームワークである \textbf{BEVDistill} を提案する。
提案手法は, 提案手法が, 推定位相に余分なコストを伴わずに, 競合性の高いベースラインであるBEVFormerにおいて, 現行のKD手法よりも優れていることを示す。
特に、我々の最良のモデルは、nuScenesテストリーダーボード上で59.4 NDSを達成し、様々な画像ベース検出器と比較して新しい最先端技術を実現している。
コードはhttps://github.com/zehuichen123/bevdistillで入手できる。
関連論文リスト
- SOGDet: Semantic-Occupancy Guided Multi-view 3D Object Detection [19.75965521357068]
本稿では,SOGDet(Semantic-Occupancy Guided Multi-view Object Detection)と呼ばれる新しい手法を提案する。
以上の結果から,SOGDet は nuScenes Detection Score (NDS) と平均平均精度 (mAP) の3つのベースライン法の性能を一貫して向上させることがわかった。
これは、3Dオブジェクト検出と3Dセマンティック占有の組み合わせが、3D環境をより包括的に認識し、より堅牢な自律運転システムの構築を支援することを示唆している。
論文 参考訳(メタデータ) (2023-08-26T07:38:21Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - GeoMIM: Towards Better 3D Knowledge Transfer via Masked Image Modeling
for Multi-view 3D Understanding [42.780417042750315]
マルチビューカメラによる3D検出は、コンピュータビジョンにおいて難しい問題である。
最近の研究は、事前訓練されたLiDAR検出モデルを利用して、知識をカメラベースの学生ネットワークに転送する。
我々は,LiDARモデルの知識を事前学習のパラダイムに伝達するための拡張幾何マスク画像モデリング(GeoMIM)を提案する。
論文 参考訳(メタデータ) (2023-03-20T17:59:03Z) - Unleash the Potential of Image Branch for Cross-modal 3D Object
Detection [67.94357336206136]
画像分岐のポテンシャルを2つの側面から解き放つことを目的として,新しい3Dオブジェクト検出器UPIDetを提案する。
まず、UPIDetは正規化された局所座標写像推定と呼ばれる新しい2次元補助タスクを導入する。
第2に,イメージブランチのトレーニング目標から逆転する勾配によって,ポイントクラウドバックボーンの表現能力を向上できることを見出した。
論文 参考訳(メタデータ) (2023-01-22T08:26:58Z) - OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for
Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - BEV-LGKD: A Unified LiDAR-Guided Knowledge Distillation Framework for
BEV 3D Object Detection [40.45938603642747]
BEV-LGKD という統合フレームワークを提案する。
我々の手法は、RGBモデル間のKDを誘導するためにLiDARポイントのみを使用する。
論文 参考訳(メタデータ) (2022-12-01T16:17:39Z) - Structured Knowledge Distillation Towards Efficient and Compact
Multi-View 3D Detection [30.74309289544479]
本稿では,視覚のみのBEV検出モデルの効率を向上させるために,構造化知識蒸留フレームワークを提案する。
実験結果から,本手法はnuScenesベンチマークにおいて平均2.16mAPおよび2.27NDSの改善をもたらすことが示された。
論文 参考訳(メタデータ) (2022-11-14T12:51:17Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - Paint and Distill: Boosting 3D Object Detection with Semantic Passing
Network [70.53093934205057]
ライダーやカメラセンサーからの3Dオブジェクト検出タスクは、自動運転に不可欠である。
本研究では,既存のライダーベース3D検出モデルの性能向上を図るために,SPNetという新しいセマンティックパスフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-12T12:35:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。