論文の概要: MapDistill: Boosting Efficient Camera-based HD Map Construction via Camera-LiDAR Fusion Model Distillation
- arxiv url: http://arxiv.org/abs/2407.11682v1
- Date: Tue, 16 Jul 2024 13:00:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 15:02:09.526859
- Title: MapDistill: Boosting Efficient Camera-based HD Map Construction via Camera-LiDAR Fusion Model Distillation
- Title(参考訳): MapDistill: カメラ-LiDAR融合モデル蒸留による高効率HDマップ構築
- Authors: Xiaoshuai Hao, Ruikai Li, Hui Zhang, Dingzhe Li, Rong Yin, Sangil Jung, Seung-In Park, ByungIn Yoo, Haimei Zhao, Jing Zhang,
- Abstract要約: 我々は,KD(Knowledge Distillation)というアイデアを初めて,効率的なHDマップ構築に利用した。
我々は、高性能カメラ-LiDAR融合モデルから軽量カメラ専用モデルへ知識を伝達する、MapDistillと呼ばれる新しいKDベースのアプローチを導入する。
- 参考スコア(独自算出の注目度): 13.057096630912952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online high-definition (HD) map construction is an important and challenging task in autonomous driving. Recently, there has been a growing interest in cost-effective multi-view camera-based methods without relying on other sensors like LiDAR. However, these methods suffer from a lack of explicit depth information, necessitating the use of large models to achieve satisfactory performance. To address this, we employ the Knowledge Distillation (KD) idea for efficient HD map construction for the first time and introduce a novel KD-based approach called MapDistill to transfer knowledge from a high-performance camera-LiDAR fusion model to a lightweight camera-only model. Specifically, we adopt the teacher-student architecture, i.e., a camera-LiDAR fusion model as the teacher and a lightweight camera model as the student, and devise a dual BEV transform module to facilitate cross-modal knowledge distillation while maintaining cost-effective camera-only deployment. Additionally, we present a comprehensive distillation scheme encompassing cross-modal relation distillation, dual-level feature distillation, and map head distillation. This approach alleviates knowledge transfer challenges between modalities, enabling the student model to learn improved feature representations for HD map construction. Experimental results on the challenging nuScenes dataset demonstrate the effectiveness of MapDistill, surpassing existing competitors by over 7.7 mAP or 4.5X speedup.
- Abstract(参考訳): オンラインハイデフィニション(HD)マップ構築は、自動運転において重要かつ困難な課題である。
近年,LiDARのようなセンサを使わずに,費用対効果の高いマルチビューカメラ方式への関心が高まっている。
しかし、これらの手法は明示的な深度情報の欠如に悩まされ、良好な性能を達成するために大きなモデルを使用する必要がある。
そこで我々は,KD(Knowledge Distillation)のアイデアを初めて用い,MapDistillと呼ばれる新しいKDベースのアプローチを導入し,高性能カメラ-LiDAR融合モデルから軽量カメラ専用モデルへ知識を伝達する。
具体的には、教師-学生アーキテクチャ、すなわち、教師としてカメラ-LiDAR融合モデル、学生として軽量カメラモデルを採用し、コスト効率の高いカメラのみの展開を維持しながら、クロスモーダルな知識蒸留を容易にするためのデュアルBEVトランスフォーメーションモジュールを考案する。
さらに, クロスモーダルな関係蒸留, 二重レベルの特徴蒸留, マップヘッド蒸留を含む総合蒸留方式を提案する。
このアプローチにより、モダリティ間の知識伝達の課題が軽減され、生徒モデルはHDマップ構築のための特徴表現の改善を学ぶことができる。
挑戦的なnuScenesデータセットの実験結果は、MapDistillの有効性を示し、既存の競合を7.7mAP以上、4.5倍のスピードアップで上回っている。
関連論文リスト
- MiniVLN: Efficient Vision-and-Language Navigation by Progressive Knowledge Distillation [17.27883003990266]
VLN(Vision-and-Language Navigation)は、Embodied AIのコアタスクである。
本稿では,2段階の知識蒸留フレームワークを導入し,学生モデルMiniVLNについて述べる。
その結果,2段階蒸留法は,教師モデルと学生モデルのパフォーマンスギャップを狭めるのに有効であることが示唆された。
論文 参考訳(メタデータ) (2024-09-27T14:54:54Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - TSCM: A Teacher-Student Model for Vision Place Recognition Using Cross-Metric Knowledge Distillation [6.856317526681759]
視覚的位置認識は、移動ロボットの自律的な探索とナビゲーションにおいて重要な役割を果たす。
既存の手法では、強力だが大規模なネットワークを利用することでこれを克服している。
本稿では,TSCMと呼ばれる高性能な教師と軽量な学生蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-02T02:29:41Z) - One-for-All: Bridge the Gap Between Heterogeneous Architectures in
Knowledge Distillation [69.65734716679925]
知識蒸留は,教師が指導する学習手法を通じて,モデル性能を向上させる上で,極めて効果的な手法であることが証明されている。
既存の蒸留法のほとんどは、教師と生徒のモデルが同じモデルファミリーに属するという前提で設計されている。
我々は, ヘテロジニアスアーキテクチャ間の蒸留性能を大幅に向上させる, OFA-KDという, 単純で効果的な一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元
論文 参考訳(メタデータ) (2023-10-30T11:13:02Z) - Leveraging Vision-Centric Multi-Modal Expertise for 3D Object Detection [66.74183705987276]
本稿では, 見習いにやさしいマルチモーダル専門家と時間融合にやさしい蒸留監督を含む,カメラオンリーの見習いモデルを改善するための枠組みを提案する。
これらの改善により、我々のカメラオンリーの見習いVCD-Aは、63.1%のNDSスコアでnuScenesに新しい最先端技術を設定する。
論文 参考訳(メタデータ) (2023-10-24T09:29:26Z) - DistillBEV: Boosting Multi-Camera 3D Object Detection with Cross-Modal
Knowledge Distillation [25.933070263556374]
自律走行車産業における大量生産に費用対効果があるため, マルチカメラ・バードアイビュー(BEV)から学んだ表現に基づく3次元認識がトレンドとなっている。
マルチカメラのBEVとLiDARベースの3Dオブジェクト検出の間には、明確なパフォーマンスギャップがある。
そこで本研究では,多カメラBEVベースの学生検出器の表現学習を,LiDARベースの教師検出器の特徴を模倣するように訓練することで促進することを提案する。
論文 参考訳(メタデータ) (2023-09-26T17:56:21Z) - Cross Architecture Distillation for Face Recognition [49.55061794917994]
本研究では,教師にプロンプトを組み込むことで,蒸留専門知識の管理を可能にする適応型プロンプト教師ネットワーク(APT)を開発した。
一般的な顔のベンチマークと2つの大規模な検証セットによる実験は,本手法の優位性を実証している。
論文 参考訳(メタデータ) (2023-06-26T12:54:28Z) - SimDistill: Simulated Multi-modal Distillation for BEV 3D Object
Detection [56.24700754048067]
多視点カメラによる3Dオブジェクト検出は低コストで普及しているが、カメラデータのみから正確に3D形状を推定することは依然として困難である。
モデルアーキテクチャと蒸留戦略を慎重に構築し,シミュレートされたマルチモーダル蒸留(SimDistill)法を提案する。
我々のSimDistillは、コスト効率のよいカメラのみの配置を維持しながら、3Dオブジェクト検出のためのより良い特徴表現を学習することができる。
論文 参考訳(メタデータ) (2023-03-29T16:08:59Z) - Knowledge Distillation for 6D Pose Estimation by Keypoint Distribution
Alignment [77.70208382044355]
6次元ポーズ推定のための最初の知識蒸留法を提案する。
我々は,コンパクトな学生ネットワークを観察し,正確な2次元キーポイント位置の予測に苦慮する。
いくつかのベンチマーク実験により, 蒸留法が得られた結果が得られた。
論文 参考訳(メタデータ) (2022-05-30T10:17:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。