論文の概要: LiCROcc: Teach Radar for Accurate Semantic Occupancy Prediction using LiDAR and Camera
- arxiv url: http://arxiv.org/abs/2407.16197v1
- Date: Tue, 23 Jul 2024 05:53:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 18:35:54.512015
- Title: LiCROcc: Teach Radar for Accurate Semantic Occupancy Prediction using LiDAR and Camera
- Title(参考訳): LiCROcc:LiDARとカメラを用いた正確なセマンティック職業予測のためのティーチレーダ
- Authors: Yukai Ma, Jianbiao Mei, Xuemeng Yang, Licheng Wen, Weihua Xu, Jiangning Zhang, Botian Shi, Yong Liu, Xingxing Zuo,
- Abstract要約: 3Dレーダーは、自動運転アプリケーションにおけるLiDARを徐々に置き換えている。
我々は,点雲と画像の融合フレームワークを実現するために,BEVに3段階の密接な融合手法を提案する。
提案手法はレーダー専用(R-LiCROcc)とレーダーカメラ(RC-LiCROcc)の両方での性能を向上させる。
- 参考スコア(独自算出の注目度): 22.974481709303927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic Scene Completion (SSC) is pivotal in autonomous driving perception, frequently confronted with the complexities of weather and illumination changes. The long-term strategy involves fusing multi-modal information to bolster the system's robustness. Radar, increasingly utilized for 3D target detection, is gradually replacing LiDAR in autonomous driving applications, offering a robust sensing alternative. In this paper, we focus on the potential of 3D radar in semantic scene completion, pioneering cross-modal refinement techniques for improved robustness against weather and illumination changes, and enhancing SSC performance.Regarding model architecture, we propose a three-stage tight fusion approach on BEV to realize a fusion framework for point clouds and images. Based on this foundation, we designed three cross-modal distillation modules-CMRD, BRD, and PDD. Our approach enhances the performance in both radar-only (R-LiCROcc) and radar-camera (RC-LiCROcc) settings by distilling to them the rich semantic and structural information of the fused features of LiDAR and camera. Finally, our LC-Fusion (teacher model), R-LiCROcc and RC-LiCROcc achieve the best performance on the nuScenes-Occupancy dataset, with mIOU exceeding the baseline by 22.9%, 44.1%, and 15.5%, respectively. The project page is available at https://hr-zju.github.io/LiCROcc/.
- Abstract(参考訳): セマンティック・シーン・コンプリート(SSC)は自律運転認識において重要な役割を担い、しばしば天候や照明の変化の複雑さに直面している。
長期的な戦略は、システムの堅牢性を高めるために、マルチモーダル情報を融合させることである。
Radarは、ますます3Dターゲット検出に利用され、自動運転アプリケーションにおけるLiDARを徐々に置き換え、堅牢なセンシング代替手段を提供している。
本稿では,3次元レーダのセマンティック・シーン・コンプリートにおける可能性,気象や照明に対するロバスト性向上のためのクロスモーダル・リファインメント技術の開拓,SSC性能の向上に焦点をあて,モデルアーキテクチャに加えて,点雲と画像の融合フレームワークを実現するために,BEVに3段階密融合アプローチを提案する。
そこで我々はCMRD, BRD, PDDの3つのクロスモーダル蒸留モジュールを設計した。
提案手法は,レーダー専用(R-LiCROcc)とレーダーカメラ(RC-LiCROcc)の両方において,LiDARとカメラの融合した特徴の豊富な意味と構造情報を蒸留することにより,性能を向上させる。
最後に、我々のLC-Fusion(教師モデル)、R-LiCROcc、RC-LiCROccは、それぞれ22.9%、44.1%、15.5%のmIOUで、nuScenes-Occupancyデータセット上で最高のパフォーマンスを達成する。
プロジェクトページはhttps://hr-zju.github.io/LiCROcc/で公開されている。
関連論文リスト
- Multi-Modal Data-Efficient 3D Scene Understanding for Autonomous Driving [58.16024314532443]
我々は、異なるLiDARスキャンからレーザービーム操作を統合するフレームワークであるLaserMix++を導入し、データ効率の学習を支援するためにLiDAR-カメラ対応を組み込んだ。
結果は、LaserMix++が完全に教師付き代替よりも優れており、5倍のアノテーションで同等の精度を実現していることを示している。
この大幅な進歩は、LiDARベースの3Dシーン理解システムにおける広範囲なラベル付きデータへの依存を減らすための半教師付きアプローチの可能性を示している。
論文 参考訳(メタデータ) (2024-05-08T17:59:53Z) - Better Monocular 3D Detectors with LiDAR from the Past [64.6759926054061]
カメラベースの3D検出器は、画像の奥行きのあいまいさのため、LiDARベースの検出器に比べて性能が劣ることが多い。
本研究では,未ラベルの歴史的LiDARデータを活用することにより,単分子3D検出器の改良を図る。
複数の最先端モデルやデータセットに対して,9.66ミリ秒の追加レイテンシとストレージコストの低い,一貫性と大幅なパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2024-04-08T01:38:43Z) - CRKD: Enhanced Camera-Radar Object Detection with Cross-modality Knowledge Distillation [6.678224763527922]
我々は,LC検出器とCR検出器のパフォーマンスギャップを,新しいクロスモダリティKDフレームワークで橋渡しするカメラレーダー知識蒸留(CRKD)を提案する。
そこで本研究では,教師モデルから重要な特徴を学習するための蒸留損失を4つ提案する。
提案するCRKDフレームワークの有効性を示すため,nuScenesデータセットについて広範囲な評価を行った。
論文 参考訳(メタデータ) (2024-03-28T02:39:45Z) - LiRaFusion: Deep Adaptive LiDAR-Radar Fusion for 3D Object Detection [7.505655376776177]
3次元物体検出のためのLiDAR-レーダー融合のためのLiRaFusionを提案する。
我々は,結合ボクセル特徴符号化のための早期融合モジュールと,特徴写像を適応的に融合させる中核融合モジュールを設計する。
既存の手法に比べてLiRaFusionが顕著な改善を達成できることを示すため,我々はnuScenesを広範囲に評価する。
論文 参考訳(メタデータ) (2024-02-18T23:29:28Z) - ShaSTA-Fuse: Camera-LiDAR Sensor Fusion to Model Shape and
Spatio-Temporal Affinities for 3D Multi-Object Tracking [26.976216624424385]
3Dマルチオブジェクトトラッキング(MOT)は、自律移動エージェントが安全にシーンをナビゲートするために不可欠である。
我々は,カメラとLiDARセンサ情報を融合した3DMOTフレームワークの開発を目指している。
論文 参考訳(メタデータ) (2023-10-04T02:17:59Z) - Bi-LRFusion: Bi-Directional LiDAR-Radar Fusion for 3D Dynamic Object
Detection [78.59426158981108]
この課題に対処し、動的オブジェクトの3D検出を改善するために、双方向LiDAR-Radar融合フレームワーク、Bi-LRFusionを導入する。
我々はnuScenesとORRデータセットに関する広範な実験を行い、我々のBi-LRFusionが動的オブジェクトを検出するための最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-06-02T10:57:41Z) - MVFusion: Multi-View 3D Object Detection with Semantic-aligned Radar and
Camera Fusion [6.639648061168067]
マルチビューレーダーカメラで融合した3Dオブジェクト検出は、より遠くの検知範囲と自律運転に有用な機能を提供する。
現在のレーダーとカメラの融合方式は、レーダー情報をカメラデータで融合するための種類の設計を提供する。
セマンティック・アライメント・レーダ機能を実現するための新しいマルチビューレーダカメラフュージョン法であるMVFusionを提案する。
論文 参考訳(メタデータ) (2023-02-21T08:25:50Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - LIF-Seg: LiDAR and Camera Image Fusion for 3D LiDAR Semantic
Segmentation [78.74202673902303]
本稿では,LiDAR分割のための粗大なLiDARとカメラフュージョンベースネットワーク(LIF-Seg)を提案する。
提案手法は,画像の文脈情報を完全に活用し,単純だが効果的な早期融合戦略を導入する。
これら2つのコンポーネントの協力により、効果的なカメラ-LiDAR融合が成功する。
論文 参考訳(メタデータ) (2021-08-17T08:53:11Z) - LIBRE: The Multiple 3D LiDAR Dataset [54.25307983677663]
We present LIBRE: LiDAR Benchmarking and Reference, a first-of-in-kind dataset with 10 different LiDAR sensor。
LIBREは、現在利用可能なLiDARを公平に比較するための手段を提供するために、研究コミュニティに貢献する。
また、既存の自動運転車やロボティクス関連のソフトウェアの改善も促進する。
論文 参考訳(メタデータ) (2020-03-13T06:17:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。