論文の概要: Structured Knowledge Distillation Towards Efficient and Compact
Multi-View 3D Detection
- arxiv url: http://arxiv.org/abs/2211.08398v1
- Date: Mon, 14 Nov 2022 12:51:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 13:24:41.577173
- Title: Structured Knowledge Distillation Towards Efficient and Compact
Multi-View 3D Detection
- Title(参考訳): 効率的かつコンパクトな多視点3D検出に向けた構造的知識蒸留
- Authors: Linfeng Zhang, Yukang Shi, Hung-Shuo Tai, Zhipeng Zhang, Yuan He, Ke
Wang, Kaisheng Ma
- Abstract要約: 本稿では,視覚のみのBEV検出モデルの効率を向上させるために,構造化知識蒸留フレームワークを提案する。
実験結果から,本手法はnuScenesベンチマークにおいて平均2.16mAPおよび2.27NDSの改善をもたらすことが示された。
- 参考スコア(独自算出の注目度): 30.74309289544479
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting 3D objects from multi-view images is a fundamental problem in 3D
computer vision. Recently, significant breakthrough has been made in multi-view
3D detection tasks. However, the unprecedented detection performance of these
vision BEV (bird's-eye-view) detection models is accompanied with enormous
parameters and computation, which make them unaffordable on edge devices. To
address this problem, in this paper, we propose a structured knowledge
distillation framework, aiming to improve the efficiency of modern vision-only
BEV detection models. The proposed framework mainly includes: (a)
spatial-temporal distillation which distills teacher knowledge of information
fusion from different timestamps and views, (b) BEV response distillation which
distills teacher response to different pillars, and (c) weight-inheriting which
solves the problem of inconsistent inputs between students and teacher in
modern transformer architectures. Experimental results show that our method
leads to an average improvement of 2.16 mAP and 2.27 NDS on the nuScenes
benchmark, outperforming multiple baselines by a large margin.
- Abstract(参考訳): 多視点画像から3Dオブジェクトを検出することは、3Dコンピュータビジョンの基本的な問題である。
近年,マルチビュー3d検出タスクにおいて大きなブレークスルーが達成されている。
しかし、これらの視覚BEV(バードアイビュー)検出モデルの前例のない検出性能は、膨大なパラメータと計算を伴うため、エッジデバイスでは達成できない。
この問題に対処するため,本稿では,現代的な視覚のみのbev検出モデルの効率向上を目的とした構造化知識蒸留フレームワークを提案する。
提案するフレームワークは主に次のとおりである。
(a)異なるタイムスタンプや視点から情報融合に関する教師の知識を蒸留する時空間蒸留
(b)異なる柱に対して教師の反応を蒸留するbev応答蒸留
(c)現代変圧器建築における学生と教師の不整合入力の問題を解決する重み継承
実験結果から,本手法はnuScenesベンチマークにおいて平均2.16mAPおよび2.27NDSの改善を達成し,複数のベースラインを大きなマージンで上回ることがわかった。
関連論文リスト
- Multi-View Attentive Contextualization for Multi-View 3D Object Detection [19.874148893464607]
MvACon(Multi-View Attentive Contextualization)は,クエリベース3D(MV3D)オブジェクト検出における2D-to-3D機能向上のための,シンプルかつ効果的な手法である。
実験では、提案されたMvAConは、BEVFormerと最近の3Dデフォルマブルアテンション(DFA3D)とPETRの両方を用いて、nuScenesベンチマークで徹底的にテストされている。
論文 参考訳(メタデータ) (2024-05-20T17:37:10Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Instance-aware Multi-Camera 3D Object Detection with Structural Priors
Mining and Self-Boosting Learning [93.71280187657831]
カメラによる鳥眼視(BEV)知覚パラダイムは、自律運転分野において大きな進歩を遂げている。
画像平面のインスタンス認識をBEV検出器内の深度推定プロセスに統合するIA-BEVを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:24:42Z) - DistillBEV: Boosting Multi-Camera 3D Object Detection with Cross-Modal
Knowledge Distillation [25.933070263556374]
自律走行車産業における大量生産に費用対効果があるため, マルチカメラ・バードアイビュー(BEV)から学んだ表現に基づく3次元認識がトレンドとなっている。
マルチカメラのBEVとLiDARベースの3Dオブジェクト検出の間には、明確なパフォーマンスギャップがある。
そこで本研究では,多カメラBEVベースの学生検出器の表現学習を,LiDARベースの教師検出器の特徴を模倣するように訓練することで促進することを提案する。
論文 参考訳(メタデータ) (2023-09-26T17:56:21Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - SimDistill: Simulated Multi-modal Distillation for BEV 3D Object
Detection [56.24700754048067]
多視点カメラによる3Dオブジェクト検出は低コストで普及しているが、カメラデータのみから正確に3D形状を推定することは依然として困難である。
モデルアーキテクチャと蒸留戦略を慎重に構築し,シミュレートされたマルチモーダル蒸留(SimDistill)法を提案する。
我々のSimDistillは、コスト効率のよいカメラのみの配置を維持しながら、3Dオブジェクト検出のためのより良い特徴表現を学習することができる。
論文 参考訳(メタデータ) (2023-03-29T16:08:59Z) - UniDistill: A Universal Cross-Modality Knowledge Distillation Framework
for 3D Object Detection in Bird's-Eye View [7.1054067852590865]
単一モダリティ検知器の性能向上を目的として, 普遍的クロスモダリティ知識蒸留フレームワーク (UniDistill) を提案する。
UniDistillは、LiDAR-to-camera、カメラ-to-LiDAR、融合-to-LiDAR、融合-to-camera蒸留パスを容易にサポートする。
nuScenesの実験では、UniDistillは学生検出器のmAPとNDSを2.0%3.2%改善することを示した。
論文 参考訳(メタデータ) (2023-03-27T10:50:58Z) - BEV-LGKD: A Unified LiDAR-Guided Knowledge Distillation Framework for
BEV 3D Object Detection [40.45938603642747]
BEV-LGKD という統合フレームワークを提案する。
我々の手法は、RGBモデル間のKDを誘導するためにLiDARポイントのみを使用する。
論文 参考訳(メタデータ) (2022-12-01T16:17:39Z) - BEVDistill: Cross-Modal BEV Distillation for Multi-View 3D Object
Detection [17.526914782562528]
複数の画像ビューから3Dオブジェクトを検出することは、視覚的なシーン理解にとって難しい課題である。
マルチビュー3Dオブジェクト検出のためのクロスモーダルなBEV知識蒸留フレームワークである textbfBEVDistill を提案する。
我々の最良のモデルは、nuScenesテストリーダーボード上で59.4 NDSを達成し、様々な画像ベース検出器と比較して新しい最先端技術を達成する。
論文 参考訳(メタデータ) (2022-11-17T07:26:14Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。