論文の概要: MapKD: Unlocking Prior Knowledge with Cross-Modal Distillation for Efficient Online HD Map Construction
- arxiv url: http://arxiv.org/abs/2508.15653v2
- Date: Fri, 22 Aug 2025 01:44:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 12:20:05.415695
- Title: MapKD: Unlocking Prior Knowledge with Cross-Modal Distillation for Efficient Online HD Map Construction
- Title(参考訳): MapKD: 効率的なオンラインHDマップ構築のためのクロスモーダル蒸留による事前知識のロック解除
- Authors: Ziyang Yan, Ruikai Li, Zhiyong Cui, Bohan Li, Han Jiang, Yilong Ren, Aoyong Li, Zhenning Li, Sijia Wen, Haiyang Yu,
- Abstract要約: MapKDは、革新的なTeach-Coach-Student(TCS)パラダイムを備えた、多段階のクロスモーダルな知識蒸留フレームワークである。
本稿では,鳥の目視機能アライメントのためのToken-Guided 2D Patch Distillation (TGPD) と,意味学習指導のためのMasked Semantic Response Distillation (MSRD) の2つを紹介する。
挑戦的なnuScenesデータセットの実験では、MapKDは推論速度を同時に加速しながら、+6.68 mIoUと+10.94 mAPの学生モデルを改善することが示されている。
- 参考スコア(独自算出の注目度): 23.156125781601528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online HD map construction is a fundamental task in autonomous driving systems, aiming to acquire semantic information of map elements around the ego vehicle based on real-time sensor inputs. Recently, several approaches have achieved promising results by incorporating offline priors such as SD maps and HD maps or by fusing multi-modal data. However, these methods depend on stale offline maps and multi-modal sensor suites, resulting in avoidable computational overhead at inference. To address these limitations, we employ a knowledge distillation strategy to transfer knowledge from multimodal models with prior knowledge to an efficient, low-cost, and vision-centric student model. Specifically, we propose MapKD, a novel multi-level cross-modal knowledge distillation framework with an innovative Teacher-Coach-Student (TCS) paradigm. This framework consists of: (1) a camera-LiDAR fusion model with SD/HD map priors serving as the teacher; (2) a vision-centric coach model with prior knowledge and simulated LiDAR to bridge the cross-modal knowledge transfer gap; and (3) a lightweight vision-based student model. Additionally, we introduce two targeted knowledge distillation strategies: Token-Guided 2D Patch Distillation (TGPD) for bird's eye view feature alignment and Masked Semantic Response Distillation (MSRD) for semantic learning guidance. Extensive experiments on the challenging nuScenes dataset demonstrate that MapKD improves the student model by +6.68 mIoU and +10.94 mAP while simultaneously accelerating inference speed. The code is available at:https://github.com/2004yan/MapKD2026.
- Abstract(参考訳): オンラインHDマップ構築は、リアルタイムセンサ入力に基づいて、エゴ車周辺の地図要素のセマンティック情報を取得することを目的とした、自律運転システムの基本課題である。
近年,SDマップやHDマップなどのオフライン先行情報を組み込んだり,マルチモーダルデータを融合することで,有望な成果を上げている。
しかし、これらの手法は、古いオフラインマップとマルチモーダルセンサースイートに依存しており、推論時の計算オーバーヘッドを回避できる。
これらの制約に対処するため、我々は知識蒸留戦略を用いて、事前知識を持つマルチモーダルモデルから効率的で低コストで視覚中心の学生モデルに知識を伝達する。
具体的には,新しいマルチレベルクロスモーダルな知識蒸留フレームワークであるMapKDを提案する。
本フレームワークは,(1)SD/HDマップを教師として使用するカメラ-LiDAR融合モデル,(2)先行知識を持つビジョン中心のコーチモデル,(2)モダル間の知識伝達ギャップを埋めるためにLiDARをシミュレートし,(3)軽量なビジョンベース学生モデルから構成される。
さらに,鳥の目視機能アライメントのためのToken-Guided 2D Patch Distillation (TGPD) と,意味学習指導のためのMasked Semantic Response Distillation (MSRD) の2つの目標とする知識蒸留戦略を紹介した。
挑戦的なnuScenesデータセットに関する大規模な実験は、MapKDが推論速度を同時に加速しながら、+6.68 mIoUと+10.94 mAPの学生モデルを改善することを示した。
コードはhttps://github.com/2004yan/MapKD2026で公開されている。
関連論文リスト
- What Really Matters for Robust Multi-Sensor HD Map Construction? [9.108124985480046]
高精度かつ包括的な静的環境情報の提供には,HDマップ構築法が不可欠である。
既存のアプローチは主にモデルの精度の向上に重点を置いており、知覚モデルの堅牢性を無視していることが多い。
高精度を維持しつつ,HDマップ構築のためのマルチモーダル融合法のロバスト性を高める戦略を提案する。
論文 参考訳(メタデータ) (2025-07-02T08:46:27Z) - JointDistill: Adaptive Multi-Task Distillation for Joint Depth Estimation and Scene Segmentation [31.89422375115854]
この研究は、マルチタスク蒸留を用いて統一モデリングを改善する方法について検討する。
学生の現在の学習能力に応じて各教師の知識量を調整できる自己適応型蒸留法を提案する。
我々は,CityscapesやNYU-v2など,複数のベンチマークデータセットについて評価を行った。
論文 参考訳(メタデータ) (2025-05-15T08:00:48Z) - MapDistill: Boosting Efficient Camera-based HD Map Construction via Camera-LiDAR Fusion Model Distillation [13.057096630912952]
我々は,KD(Knowledge Distillation)というアイデアを初めて,効率的なHDマップ構築に利用した。
我々は、高性能カメラ-LiDAR融合モデルから軽量カメラ専用モデルへ知識を伝達する、MapDistillと呼ばれる新しいKDベースのアプローチを導入する。
論文 参考訳(メタデータ) (2024-07-16T13:00:20Z) - HDKD: Hybrid Data-Efficient Knowledge Distillation Network for Medical Image Classification [0.0]
ビジョントランスフォーマー(ViT)は、強力なモデリング能力のため、コンピュータビジョンタスクにおいて大きな進歩を遂げている。
知識蒸留(KD)への以前のアプローチは、CNNの教師からViTの学生へのロジット分布の蒸留に焦点を絞った2つの主要な経路を追求してきた。
本稿では,CNN教師とハイブリッド学生を併用したHybrid Data- efficient Knowledge Distillation(HDKD)パラダイムを提案する。
論文 参考訳(メタデータ) (2024-07-10T10:09:12Z) - Cross Architecture Distillation for Face Recognition [49.55061794917994]
本研究では,教師にプロンプトを組み込むことで,蒸留専門知識の管理を可能にする適応型プロンプト教師ネットワーク(APT)を開発した。
一般的な顔のベンチマークと2つの大規模な検証セットによる実験は,本手法の優位性を実証している。
論文 参考訳(メタデータ) (2023-06-26T12:54:28Z) - SimDistill: Simulated Multi-modal Distillation for BEV 3D Object
Detection [56.24700754048067]
多視点カメラによる3Dオブジェクト検出は低コストで普及しているが、カメラデータのみから正確に3D形状を推定することは依然として困難である。
モデルアーキテクチャと蒸留戦略を慎重に構築し,シミュレートされたマルチモーダル蒸留(SimDistill)法を提案する。
我々のSimDistillは、コスト効率のよいカメラのみの配置を維持しながら、3Dオブジェクト検出のためのより良い特徴表現を学習することができる。
論文 参考訳(メタデータ) (2023-03-29T16:08:59Z) - CMD: Self-supervised 3D Action Representation Learning with Cross-modal
Mutual Distillation [130.08432609780374]
3D行動認識では、骨格のモダリティの間に豊富な相補的な情報が存在する。
本稿では,CMD(Cross-modal Mutual Distillation)フレームワークを提案する。
提案手法は,既存の自己管理手法より優れ,新しい記録を多数設定する。
論文 参考訳(メタデータ) (2022-08-26T06:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。