論文の概要: KD360-VoxelBEV: LiDAR and 360-degree Camera Cross Modality Knowledge Distillation for Bird's-Eye-View Segmentation
- arxiv url: http://arxiv.org/abs/2512.15311v1
- Date: Wed, 17 Dec 2025 11:00:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.94872
- Title: KD360-VoxelBEV: LiDAR and 360-degree Camera Cross Modality Knowledge Distillation for Bird's-Eye-View Segmentation
- Title(参考訳): KD360-VoxelBEV:鳥のEye-ViewセグメンテーションのためのLiDARと360度カメラクロスモダリティ知識蒸留
- Authors: Wenke E, Yixin Sun, Jiaxu Liu, Hubert P. H. Shum, Amir Atapour-Abarghouei, Toby P. Breckon,
- Abstract要約: 本研究では,単一パノラマカメラBird's-Eye-View(BEV)セグメンテーションに適した,最初のクロスモーダル蒸留フレームワークを提案する。
我々のアプローチは、範囲、強度、周囲のチャネルから融合した新しいLiDAR画像表現と、ボクセル・アライン・ビュー・トランスフォーマーを活用している。
トレーニング中、高容量LiDARとカメラ融合ネットワークは、クロスモダリティ知識蒸留のための豊富な空間的特徴と意味的特徴を抽出する。
- 参考スコア(独自算出の注目度): 30.730703237135216
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the first cross-modality distillation framework specifically tailored for single-panoramic-camera Bird's-Eye-View (BEV) segmentation. Our approach leverages a novel LiDAR image representation fused from range, intensity and ambient channels, together with a voxel-aligned view transformer that preserves spatial fidelity while enabling efficient BEV processing. During training, a high-capacity LiDAR and camera fusion Teacher network extracts both rich spatial and semantic features for cross-modality knowledge distillation into a lightweight Student network that relies solely on a single 360-degree panoramic camera image. Extensive experiments on the Dur360BEV dataset demonstrate that our teacher model significantly outperforms existing camera-based BEV segmentation methods, achieving a 25.6\% IoU improvement. Meanwhile, the distilled Student network attains competitive performance with an 8.5\% IoU gain and state-of-the-art inference speed of 31.2 FPS. Moreover, evaluations on KITTI-360 (two fisheye cameras) confirm that our distillation framework generalises to diverse camera setups, underscoring its feasibility and robustness. This approach reduces sensor complexity and deployment costs while providing a practical solution for efficient, low-cost BEV segmentation in real-world autonomous driving.
- Abstract(参考訳): 本研究では,単一パノラマカメラBird's-Eye-View(BEV)セグメンテーションに適した,最初のクロスモーダル蒸留フレームワークを提案する。
提案手法では,距離,強度,周囲のチャネルから融合した新しいLiDAR画像表現と,効率的なBEV処理を実現するとともに,空間の忠実さを保ったボクセル・アライン・ビュー・トランスフォーマを利用する。
トレーニング中、高容量LiDARとカメラ融合ネットワークは、360度パノラマカメラ画像のみに依存する軽量の学生ネットワークに、クロスモダリティ知識蒸留のための豊富な空間的特徴と意味的特徴を抽出する。
Dur360BEVデータセットの大規模な実験により、我々の教師モデルは既存のカメラベースのBEVセグメンテーション手法を著しく上回り、25.6%のIoU改善を実現している。
一方、蒸留した学生ネットワークは8.5 %のIoUゲインと31.2 FPSの最先端の推論速度で競争性能を発揮する。
さらに, KITTI-360 (2つの魚眼カメラ) の評価により, 蒸留フレームワークが多種多様なカメラ設備に一般化し, その実現可能性と堅牢性を裏付けることを確認した。
このアプローチは、現実の自動運転において、効率的で低コストなBEVセグメンテーションのための実用的なソリューションを提供しながら、センサの複雑さとデプロイメントコストを低減する。
関連論文リスト
- Dur360BEV: A Real-world 360-degree Single Camera Dataset and Benchmark for Bird-Eye View Mapping in Autonomous Driving [16.771347109638775]
Dur360BEVは高解像度の128チャンネルのLiDARとRTK精製/INSシステムを備えた自動運転データセットである。
このデータセットとベンチマークは、単一球面カメラのみを使用したBird-Eye-View(BEV)マップの課題に対処する。
論文 参考訳(メタデータ) (2025-03-02T00:40:50Z) - OneBEV: Using One Panoramic Image for Bird's-Eye-View Semantic Mapping [25.801868221496473]
OneBEVは、単一のパノラマ画像を入力として使用する、新しいBEVセマンティックマッピングアプローチである。
Mamba View Transformation (MVT)と呼ばれる歪み対応モジュールは、パノラマの空間歪みを処理するために特別に設計されている。
この作業は、自律運転におけるBEVセマンティックマッピングを前進させ、より高度で信頼性の高い自律システムへの道を開く。
論文 参考訳(メタデータ) (2024-09-20T21:33:53Z) - Leveraging Vision-Centric Multi-Modal Expertise for 3D Object Detection [66.74183705987276]
本稿では, 見習いにやさしいマルチモーダル専門家と時間融合にやさしい蒸留監督を含む,カメラオンリーの見習いモデルを改善するための枠組みを提案する。
これらの改善により、我々のカメラオンリーの見習いVCD-Aは、63.1%のNDSスコアでnuScenesに新しい最先端技術を設定する。
論文 参考訳(メタデータ) (2023-10-24T09:29:26Z) - DistillBEV: Boosting Multi-Camera 3D Object Detection with Cross-Modal
Knowledge Distillation [25.933070263556374]
自律走行車産業における大量生産に費用対効果があるため, マルチカメラ・バードアイビュー(BEV)から学んだ表現に基づく3次元認識がトレンドとなっている。
マルチカメラのBEVとLiDARベースの3Dオブジェクト検出の間には、明確なパフォーマンスギャップがある。
そこで本研究では,多カメラBEVベースの学生検出器の表現学習を,LiDARベースの教師検出器の特徴を模倣するように訓練することで促進することを提案する。
論文 参考訳(メタデータ) (2023-09-26T17:56:21Z) - BEVFusion4D: Learning LiDAR-Camera Fusion Under Bird's-Eye-View via
Cross-Modality Guidance and Temporal Aggregation [14.606324706328106]
本稿では,LiDARとカメラBEVを生成し,適応的なモダリティ融合を行うためのデュアルブランチフレームワークを提案する。
LiDAR-Guided View Transformer (LGVT) は、BEV空間におけるカメラ表現を効果的に得るように設計されている。
BEVFusion4Dと呼ばれる我々のフレームワークは、3Dオブジェクト検出において最先端の結果を得る。
論文 参考訳(メタデータ) (2023-03-30T02:18:07Z) - BiFuse++: Self-supervised and Efficient Bi-projection Fusion for 360
Depth Estimation [59.11106101006008]
両射影融合と自己学習シナリオの組み合わせを検討するために,BiFuse++を提案する。
そこで我々は,BiFuseの性能向上のために,新たな融合モジュールとコントラスト対応測光損失を提案する。
論文 参考訳(メタデータ) (2022-09-07T06:24:21Z) - Fully Convolutional One-Stage 3D Object Detection on LiDAR Range Images [96.66271207089096]
FCOS-LiDARは、自律走行シーンのLiDAR点雲のための完全な1段式3Dオブジェクト検出器である。
標準的な2Dコンボリューションを持つRVベースの3D検出器は、最先端のBEVベースの検出器と同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-05-27T05:42:16Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation [105.96557764248846]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z) - M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified
Birds-Eye View Representation [145.6041893646006]
M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。
M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
論文 参考訳(メタデータ) (2022-04-11T13:43:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。