論文の概要: CRKD: Enhanced Camera-Radar Object Detection with Cross-modality Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2403.19104v1
- Date: Thu, 28 Mar 2024 02:39:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 17:32:29.565095
- Title: CRKD: Enhanced Camera-Radar Object Detection with Cross-modality Knowledge Distillation
- Title(参考訳): CRKD:クロスモーダル知識蒸留によるカメラレーダー物体検出
- Authors: Lingjun Zhao, Jingyu Song, Katherine A. Skinner,
- Abstract要約: 我々は,LC検出器とCR検出器のパフォーマンスギャップを,新しいクロスモダリティKDフレームワークで橋渡しするカメラレーダー知識蒸留(CRKD)を提案する。
そこで本研究では,教師モデルから重要な特徴を学習するための蒸留損失を4つ提案する。
提案するCRKDフレームワークの有効性を示すため,nuScenesデータセットについて広範囲な評価を行った。
- 参考スコア(独自算出の注目度): 6.678224763527922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the field of 3D object detection for autonomous driving, LiDAR-Camera (LC) fusion is the top-performing sensor configuration. Still, LiDAR is relatively high cost, which hinders adoption of this technology for consumer automobiles. Alternatively, camera and radar are commonly deployed on vehicles already on the road today, but performance of Camera-Radar (CR) fusion falls behind LC fusion. In this work, we propose Camera-Radar Knowledge Distillation (CRKD) to bridge the performance gap between LC and CR detectors with a novel cross-modality KD framework. We use the Bird's-Eye-View (BEV) representation as the shared feature space to enable effective knowledge distillation. To accommodate the unique cross-modality KD path, we propose four distillation losses to help the student learn crucial features from the teacher model. We present extensive evaluations on the nuScenes dataset to demonstrate the effectiveness of the proposed CRKD framework. The project page for CRKD is https://song-jingyu.github.io/CRKD.
- Abstract(参考訳): 自律走行のための3Dオブジェクト検出の分野では、LiDAR-Camera (LC) 融合が最も優れたセンサー構成である。
それでもLiDARは比較的高価であり、消費者自動車にこの技術を採用するのを妨げている。
あるいは、カメラとレーダーは、現在既に道路上の車両に配備されているが、カメラレーダー(CR)フュージョンの性能はLCフュージョンより遅れている。
本研究では,LC検出器とCR検出器間の性能ギャップを,新しいクロスモダリティKDフレームワークで橋渡しするカメラレーダー知識蒸留(CRKD)を提案する。
本研究では,Bird's-Eye-View (BEV) 表現を共有特徴空間として使用し,効果的な知識蒸留を実現する。
そこで本研究では,教師モデルから重要な特徴を学習するための蒸留損失を4つ提案する。
提案するCRKDフレームワークの有効性を示すため,nuScenesデータセットについて広範囲な評価を行った。
CRKDのプロジェクトページはhttps://song-jingyu.github.io/CRKDである。
関連論文リスト
- LiCROcc: Teach Radar for Accurate Semantic Occupancy Prediction using LiDAR and Camera [22.974481709303927]
3Dレーダーは、自動運転アプリケーションにおけるLiDARを徐々に置き換えている。
我々は,点雲と画像の融合フレームワークを実現するために,BEVに3段階の密接な融合手法を提案する。
提案手法はレーダー専用(R-LiCROcc)とレーダーカメラ(RC-LiCROcc)の両方での性能を向上させる。
論文 参考訳(メタデータ) (2024-07-23T05:53:05Z) - Better Monocular 3D Detectors with LiDAR from the Past [64.6759926054061]
カメラベースの3D検出器は、画像の奥行きのあいまいさのため、LiDARベースの検出器に比べて性能が劣ることが多い。
本研究では,未ラベルの歴史的LiDARデータを活用することにより,単分子3D検出器の改良を図る。
複数の最先端モデルやデータセットに対して,9.66ミリ秒の追加レイテンシとストレージコストの低い,一貫性と大幅なパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2024-04-08T01:38:43Z) - CR3DT: Camera-RADAR Fusion for 3D Detection and Tracking [40.630532348405595]
Camera-RADAR 3D Detection and Tracking (CR3DT)は3Dオブジェクト検出のためのカメラ・レーダ融合モデルであり、Multi-Object Tracking (MOT) である。
State-of-the-Art (SotA)カメラ専用のBEVDetアーキテクチャの基礎の上に構築されたCR3DTは、検出機能とトラッキング機能の両方で大幅に改善されている。
論文 参考訳(メタデータ) (2024-03-22T16:06:05Z) - Echoes Beyond Points: Unleashing the Power of Raw Radar Data in
Multi-modality Fusion [74.84019379368807]
本稿では,既存のレーダ信号処理パイプラインをスキップするEchoFusionという新しい手法を提案する。
具体的には、まずBird's Eye View (BEV)クエリを生成し、次にレーダーから他のセンサーとフューズに対応するスペクトル特徴を取ります。
論文 参考訳(メタデータ) (2023-07-31T09:53:50Z) - TransCAR: Transformer-based Camera-And-Radar Fusion for 3D Object
Detection [13.986963122264633]
TransCARはトランスフォーマーベースの3Dオブジェクト検出のためのカメラとレーダーの融合ソリューションである。
我々のモデルは、設定されたハンガリー損失を用いてクエリ毎のバウンディングボックスを推定する。
論文 参考訳(メタデータ) (2023-04-30T05:35:03Z) - CramNet: Camera-Radar Fusion with Ray-Constrained Cross-Attention for
Robust 3D Object Detection [12.557361522985898]
本稿では,カメラとレーダーの読み取りを3次元空間に融合させるカメラレーダマッチングネットワークCramNetを提案する。
本手法は, カメラやレーダセンサが車両内で突然故障した場合においても, 頑健な3次元物体検出を実現するセンサモダリティ・ドロップアウトによるトレーニングを支援する。
論文 参考訳(メタデータ) (2022-10-17T17:18:47Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with
Transformers [49.689566246504356]
そこで本研究では,LiDAR-カメラ融合に対するソフトアソシエーション機構による堅牢な解であるTransFusionを提案する。
TransFusionは大規模データセット上で最先端のパフォーマンスを実現する。
提案手法を3次元トラッキングタスクに拡張し,nuScenesトラッキングのリーダーボードにおける第1位を達成する。
論文 参考訳(メタデータ) (2022-03-22T07:15:13Z) - LIF-Seg: LiDAR and Camera Image Fusion for 3D LiDAR Semantic
Segmentation [78.74202673902303]
本稿では,LiDAR分割のための粗大なLiDARとカメラフュージョンベースネットワーク(LIF-Seg)を提案する。
提案手法は,画像の文脈情報を完全に活用し,単純だが効果的な早期融合戦略を導入する。
これら2つのコンポーネントの協力により、効果的なカメラ-LiDAR融合が成功する。
論文 参考訳(メタデータ) (2021-08-17T08:53:11Z) - Radar Camera Fusion via Representation Learning in Autonomous Driving [4.278336455989584]
レーダーカメラ融合の成功の鍵は、正確なデータ関連付けです。
従来のルールに基づくアソシエーション手法は、難解なシナリオやコーナーケースの障害でパフォーマンスが低下するおそれがある。
本稿では,rad-camアソシエーションを深層表現学習を通じて解決し,機能レベルのインタラクションとグローバル推論を検討する。
論文 参考訳(メタデータ) (2021-03-14T01:32:03Z) - Drone-based RGB-Infrared Cross-Modality Vehicle Detection via
Uncertainty-Aware Learning [59.19469551774703]
ドローンによる車両検出は、空中画像中の車両の位置とカテゴリーを見つけることを目的としている。
我々はDroneVehicleと呼ばれる大規模ドローンベースのRGB赤外線車両検出データセットを構築した。
私たちのDroneVehicleは28,439RGBの赤外線画像を収集し、都市道路、住宅地、駐車場、その他のシナリオを昼から夜までカバーしています。
論文 参考訳(メタデータ) (2020-03-05T05:29:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。