論文の概要: FSD-BEV: Foreground Self-Distillation for Multi-view 3D Object Detection
- arxiv url: http://arxiv.org/abs/2407.10135v1
- Date: Sun, 14 Jul 2024 09:39:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 19:19:02.424031
- Title: FSD-BEV: Foreground Self-Distillation for Multi-view 3D Object Detection
- Title(参考訳): FSD-BEV:多視点3次元物体検出のための前景自己蒸留
- Authors: Zheng Jiang, Jinqing Zhang, Yanan Zhang, Qingjie Liu, Zhenghui Hu, Baohui Wang, Yunhong Wang,
- Abstract要約: 本稿では,分散の相違を効果的に回避するFSD方式を提案する。
また2つのポイントクラウド拡張(PCI)戦略を設計し、ポイントクラウドの幅を補う。
マルチスケール・フォアグラウンド・エンハンスメント(MSFE)モジュールを開発し,マルチスケール・フォアグラウンドの特徴を抽出・融合する。
- 参考スコア(独自算出の注目度): 33.225938984092274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although multi-view 3D object detection based on the Bird's-Eye-View (BEV) paradigm has garnered widespread attention as an economical and deployment-friendly perception solution for autonomous driving, there is still a performance gap compared to LiDAR-based methods. In recent years, several cross-modal distillation methods have been proposed to transfer beneficial information from teacher models to student models, with the aim of enhancing performance. However, these methods face challenges due to discrepancies in feature distribution originating from different data modalities and network structures, making knowledge transfer exceptionally challenging. In this paper, we propose a Foreground Self-Distillation (FSD) scheme that effectively avoids the issue of distribution discrepancies, maintaining remarkable distillation effects without the need for pre-trained teacher models or cumbersome distillation strategies. Additionally, we design two Point Cloud Intensification (PCI) strategies to compensate for the sparsity of point clouds by frame combination and pseudo point assignment. Finally, we develop a Multi-Scale Foreground Enhancement (MSFE) module to extract and fuse multi-scale foreground features by predicted elliptical Gaussian heatmap, further improving the model's performance. We integrate all the above innovations into a unified framework named FSD-BEV. Extensive experiments on the nuScenes dataset exhibit that FSD-BEV achieves state-of-the-art performance, highlighting its effectiveness. The code and models are available at: https://github.com/CocoBoom/fsd-bev.
- Abstract(参考訳): Bird's-Eye-View(BEV)パラダイムに基づく多視点3Dオブジェクト検出は、自動運転のための経済的かつデプロイメントフレンドリーな認識ソリューションとして広く注目されているが、LiDARベースの方法と比較してまだパフォーマンスの差がある。
近年,教師モデルから学生モデルに有益な情報を伝達するクロスモーダル蒸留法が提案されている。
しかし、これらの手法は、異なるデータモダリティとネットワーク構造から生じる特徴分布の相違による課題に直面しており、知識伝達は非常に困難である。
本稿では, 事前学習した教師モデルや煩雑な蒸留戦略を必要とせず, 分散不一致を効果的に回避し, 優れた蒸留効果を維持した前景自己蒸留(FSD)方式を提案する。
さらに,2つのポイントクラウド拡張(PCI)戦略を設計し,フレーム結合と擬似点割り当てによって点雲の空間性を改善する。
最後に,マルチスケールフォアグラウンド・エンハンスメント (MSFE) モジュールを開発した。
上記のすべてのイノベーションを、FSD-BEVという統合フレームワークに統合します。
nuScenesデータセットに関する大規模な実験によると、FSD-BEVは最先端のパフォーマンスを達成し、その有効性を強調している。
コードとモデルは、https://github.com/CocoBoom/fsd-bev.comで入手できる。
関連論文リスト
- 4D Contrastive Superflows are Dense 3D Representation Learners [62.433137130087445]
我々は,LiDARとカメラのペアを連続的に利用して事前学習の目的を確立するための,新しいフレームワークであるSuperFlowを紹介する。
学習効率をさらに向上するため,カメラビューから抽出した知識の整合性を高めるプラグイン・アンド・プレイ・ビュー・一貫性モジュールを組み込んだ。
論文 参考訳(メタデータ) (2024-07-08T17:59:54Z) - Benchmarking and Improving Bird's Eye View Perception Robustness in Autonomous Driving [55.93813178692077]
本稿では,BEVアルゴリズムのレジリエンスを評価するためのベンチマークスイートであるRoboBEVを紹介する。
検出,マップセグメンテーション,深さ推定,占有予測といったタスクにまたがる33の最先端のBEVベースの知覚モデルを評価する。
また, 事前学習や深度自由なBEVトランスフォーメーションなどの戦略が, アウト・オブ・ディストリビューションデータに対するロバスト性を高める上で有効であることを示す。
論文 参考訳(メタデータ) (2024-05-27T17:59:39Z) - IPoD: Implicit Field Learning with Point Diffusion for Generalizable 3D Object Reconstruction from Single RGB-D Images [50.4538089115248]
シングルビューRGB-D画像からの3Dオブジェクトの汎用化は依然として難しい課題である。
本稿では,暗黙の場学習と点拡散を調和させる新しい手法IPoDを提案する。
CO3D-v2データセットによる実験では、IPoDの優位性が確認され、Fスコアは7.8%、チャンファー距離は28.6%向上した。
論文 参考訳(メタデータ) (2024-03-30T07:17:37Z) - CMDA: Cross-Modal and Domain Adversarial Adaptation for LiDAR-Based 3D
Object Detection [14.063365469339812]
LiDARベースの3Dオブジェクト検出法は、ソース(またはトレーニング)データ配布の外部のターゲットドメインにうまく一般化しないことが多い。
画像のモダリティから視覚的セマンティックキューを活用する,CMDA (unsupervised domain adaptation) と呼ばれる新しい手法を提案する。
また、自己学習に基づく学習戦略を導入し、モデルが逆向きに訓練され、ドメイン不変の機能を生成する。
論文 参考訳(メタデータ) (2024-03-06T14:12:38Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。
近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。
本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-18T09:52:14Z) - Instance-aware Multi-Camera 3D Object Detection with Structural Priors
Mining and Self-Boosting Learning [93.71280187657831]
カメラによる鳥眼視(BEV)知覚パラダイムは、自律運転分野において大きな進歩を遂げている。
画像平面のインスタンス認識をBEV検出器内の深度推定プロセスに統合するIA-BEVを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:24:42Z) - ODM3D: Alleviating Foreground Sparsity for Semi-Supervised Monocular 3D
Object Detection [15.204935788297226]
ODM3Dフレームワークは、トレーニング中にLiDARドメインの知識を単分子検出器に注入するために、様々なレベルでのクロスモーダルな知識蒸留を必要とする。
既存手法の準最適トレーニングの主要因として,前景の空間空間を同定することにより,LiDAR点に埋め込まれた正確な位置化情報を活用する。
KITTI検証とテストベンチマークの両方で1位にランクインし、教師付きまたは半教師付きである既存のモノクラー手法をはるかに上回っている。
論文 参考訳(メタデータ) (2023-10-28T07:12:09Z) - CALICO: Self-Supervised Camera-LiDAR Contrastive Pre-training for BEV
Perception [32.91233926771015]
CALICOは、LiDARとカメラバックボーンの両方に対照的な目的を適用する新しいフレームワークである。
我々のフレームワークは、異なるバックボーンとヘッドに合わせることができ、マルチモーダルなBEV知覚のための有望なアプローチとして位置づけられる。
論文 参考訳(メタデータ) (2023-06-01T05:06:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。