論文の概要: RCTDistill: Cross-Modal Knowledge Distillation Framework for Radar-Camera 3D Object Detection with Temporal Fusion
- arxiv url: http://arxiv.org/abs/2509.17712v1
- Date: Mon, 22 Sep 2025 12:49:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.387535
- Title: RCTDistill: Cross-Modal Knowledge Distillation Framework for Radar-Camera 3D Object Detection with Temporal Fusion
- Title(参考訳): RCTDistill: 時間融合によるレーダーカメラ3次元物体検出のためのクロスモーダル知識蒸留フレームワーク
- Authors: Geonho Bang, Minjae Seong, Jisong Kim, Geunju Baek, Daye Oh, Junhyung Kim, Junho Koh, Jun Won Choi,
- Abstract要約: レーダカメラ融合法は3次元物体検出のコスト効率向上手法として登場したが,LiDAR法に遅れが生じた。
最近の研究は、これらの制限を克服するために、時間融合と知識蒸留の戦略を採用することに重点を置いている。
本稿では,3つの鍵モジュールからなる時間融合に基づく新しいクロスモーダルKD手法であるRDTDistillを提案する。
- 参考スコア(独自算出の注目度): 21.686343737103627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Radar-camera fusion methods have emerged as a cost-effective approach for 3D object detection but still lag behind LiDAR-based methods in performance. Recent works have focused on employing temporal fusion and Knowledge Distillation (KD) strategies to overcome these limitations. However, existing approaches have not sufficiently accounted for uncertainties arising from object motion or sensor-specific errors inherent in radar and camera modalities. In this work, we propose RCTDistill, a novel cross-modal KD method based on temporal fusion, comprising three key modules: Range-Azimuth Knowledge Distillation (RAKD), Temporal Knowledge Distillation (TKD), and Region-Decoupled Knowledge Distillation (RDKD). RAKD is designed to consider the inherent errors in the range and azimuth directions, enabling effective knowledge transfer from LiDAR features to refine inaccurate BEV representations. TKD mitigates temporal misalignment caused by dynamic objects by aligning historical radar-camera BEV features with current LiDAR representations. RDKD enhances feature discrimination by distilling relational knowledge from the teacher model, allowing the student to differentiate foreground and background features. RCTDistill achieves state-of-the-art radar-camera fusion performance on both the nuScenes and View-of-Delft (VoD) datasets, with the fastest inference speed of 26.2 FPS.
- Abstract(参考訳): レーダカメラ融合法は3次元物体検出のコスト効率向上手法として登場したが,LiDAR法にはまだ遅れがある。
最近の研究は、これらの制限を克服するために、時間融合と知識蒸留(KD)戦略を採用することに重点を置いている。
しかし、既存のアプローチでは、レーダーやカメラのモードに固有の物体の動きやセンサー固有の誤差から生じる不確実性は十分に説明されていない。
本研究では, 時間融合に基づく新しいクロスモーダルKD法である RCTDistill を提案し, 3つの主要なモジュール, Range-Azimuth Knowledge Distillation (RAKD), Temporal Knowledge Distillation (TKD), Region-Decoupled Knowledge Distillation (RDKD) を提案する。
RAKDは、範囲と方位方向の固有誤差を考慮し、LiDAR特徴から効果的な知識伝達を可能にし、不正確なBEV表現を洗練させる。
TKDは、歴史的レーダーカメラのBEV特徴と現在のLiDAR表現との整合によって、動的物体による時間的ずれを緩和する。
RDKDは教師モデルから関係知識を蒸留することで特徴識別を強化し、学生が前景と背景の特徴を区別できるようにする。
RCTDistillは、nuScenesとView-of-Delft(VoD)データセットの両方で最先端のレーダーカメラ融合性能を達成し、推論速度は26.2 FPSである。
関連論文リスト
- Revisiting Radar Camera Alignment by Contrastive Learning for 3D Object Detection [31.69508809666884]
レーダとカメラ融合に基づく3次元物体検出アルゴリズムは優れた性能を示した。
レーダカメラアライメント(RCAlign)と呼ばれる新しいアライメントモデルを提案する。
具体的には、対向学習に基づくデュアルルートアライメント(DRA)モジュールを設計し、レーダとカメラの機能の整合と融合を図る。
レーダBEV特性の空間性を考慮すると,レーダBEV特性の密度化を改善するためにRFEモジュールが提案されている。
論文 参考訳(メタデータ) (2025-04-23T02:41:43Z) - SCKD: Semi-Supervised Cross-Modality Knowledge Distillation for 4D Radar Object Detection [16.127926058992237]
本研究では,4次元レーダを用いた3次元物体検出のためのSCKD法を提案する。
セミ教師付き蒸留によるLidar-Radar融合教師ネットワークから特徴を学習する能力を特徴付ける。
同じネットワーク構造で、SCKDで訓練されたレーダーのみの学生は、ベースライン上でmAPを10.38%向上させる。
論文 参考訳(メタデータ) (2024-12-19T06:42:25Z) - V2X-R: Cooperative LiDAR-4D Radar Fusion with Denoising Diffusion for 3D Object Detection [64.93675471780209]
我々は、LiDAR、カメラ、および4Dレーダを取り入れた初のシミュレーションV2XデータセットであるV2X-Rを提案する。
V2X-Rには12,079のシナリオがあり、LiDARと4Dレーダーポイント雲の37,727フレーム、150,908の画像、170,859の注釈付き3D車両バウンディングボックスがある。
本稿では,3次元物体検出のための新しいコラボレーティブLiDAR-4Dレーダ融合パイプラインを提案し,様々な融合戦略を用いて実装する。
論文 参考訳(メタデータ) (2024-11-13T07:41:47Z) - Better Monocular 3D Detectors with LiDAR from the Past [64.6759926054061]
カメラベースの3D検出器は、画像の奥行きのあいまいさのため、LiDARベースの検出器に比べて性能が劣ることが多い。
本研究では,未ラベルの歴史的LiDARデータを活用することにより,単分子3D検出器の改良を図る。
複数の最先端モデルやデータセットに対して,9.66ミリ秒の追加レイテンシとストレージコストの低い,一貫性と大幅なパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2024-04-08T01:38:43Z) - RadarDistill: Boosting Radar-based Object Detection Performance via Knowledge Distillation from LiDAR Features [15.686167262542297]
RadarDistillは、LiDARデータを利用してレーダデータの表現を改善する知識蒸留(KD)手法である。
RadarDistillは、3つのキーコンポーネントを使用してLiDAR特徴の望ましい特徴をレーダー特徴に伝達することに成功した。
nuScenesデータセットの比較分析により、RadarDistillは、レーダのみのオブジェクト検出タスクに対して、最先端(SOTA)性能を達成することを示した。
論文 参考訳(メタデータ) (2024-03-08T05:15:48Z) - Bi-LRFusion: Bi-Directional LiDAR-Radar Fusion for 3D Dynamic Object
Detection [78.59426158981108]
この課題に対処し、動的オブジェクトの3D検出を改善するために、双方向LiDAR-Radar融合フレームワーク、Bi-LRFusionを導入する。
我々はnuScenesとORRデータセットに関する広範な実験を行い、我々のBi-LRFusionが動的オブジェクトを検出するための最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-06-02T10:57:41Z) - Boosting 3D Object Detection by Simulating Multimodality on Point Clouds [51.87740119160152]
本稿では,LiDAR 画像検出器に追従する特徴や応答をシミュレートすることで,単一モダリティ (LiDAR) 3次元物体検出器を高速化する新しい手法を提案する。
このアプローチでは、単一モダリティ検出器をトレーニングする場合のみ、LiDARイメージデータを必要とし、十分にトレーニングされた場合には、推論時にのみLiDARデータが必要である。
nuScenesデータセットの実験結果から,本手法はSOTA LiDARのみの3D検出器よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-06-30T01:44:30Z) - LiDAR Distillation: Bridging the Beam-Induced Domain Gap for 3D Object
Detection [96.63947479020631]
多くの現実世界の応用において、大量生産されたロボットや車両が使用するLiDARポイントは通常、大規模な公開データセットよりもビームが少ない。
異なるLiDARビームによって誘導される領域ギャップをブリッジして3次元物体検出を行うLiDAR蒸留法を提案する。
論文 参考訳(メタデータ) (2022-03-28T17:59:02Z) - SelfVoxeLO: Self-supervised LiDAR Odometry with Voxel-based Deep Neural
Networks [81.64530401885476]
本稿では,これら2つの課題に対処するために,自己教師型LiDARオドメトリー法(SelfVoxeLO)を提案する。
具体的には、生のLiDARデータを直接処理する3D畳み込みネットワークを提案し、3D幾何パターンをよりよく符号化する特徴を抽出する。
我々は,KITTIとApollo-SouthBayという2つの大規模データセット上での手法の性能を評価する。
論文 参考訳(メタデータ) (2020-10-19T09:23:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。