論文の概要: MR-Occ: Efficient Camera-LiDAR 3D Semantic Occupancy Prediction Using Hierarchical Multi-Resolution Voxel Representation
- arxiv url: http://arxiv.org/abs/2412.20480v1
- Date: Sun, 29 Dec 2024 14:39:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:06:18.230747
- Title: MR-Occ: Efficient Camera-LiDAR 3D Semantic Occupancy Prediction Using Hierarchical Multi-Resolution Voxel Representation
- Title(参考訳): MR-Occ:階層型多重解像ボクセル表現を用いた高効率カメラLiDAR3次元セマンティック占有予測
- Authors: Minjae Seong, Jisong Kim, Geonho Bang, Hawook Jeong, Jun Won Choi,
- Abstract要約: MR-Occは,カメラ-LiDAR融合による3Dセマンティック占有率予測の新しい手法である。
HVFRは重要なボクセルの機能を強化し、計算コストを削減することで性能を向上させる。
MODは、センサービューから隠された領域をよりよく扱い、精度を向上させるために、Occluded'クラスを導入している。
PVF-Netは、デフォルマブルアテンション機構を通じてカメラとLiDARデータを効果的に融合するために、密度の高いLiDAR機能を利用する。
- 参考スコア(独自算出の注目度): 8.113965240054506
- License:
- Abstract: Accurate 3D perception is essential for understanding the environment in autonomous driving. Recent advancements in 3D semantic occupancy prediction have leveraged camera-LiDAR fusion to improve robustness and accuracy. However, current methods allocate computational resources uniformly across all voxels, leading to inefficiency, and they also fail to adequately address occlusions, resulting in reduced accuracy in challenging scenarios. We propose MR-Occ, a novel approach for camera-LiDAR fusion-based 3D semantic occupancy prediction, addressing these challenges through three key components: Hierarchical Voxel Feature Refinement (HVFR), Multi-scale Occupancy Decoder (MOD), and Pixel to Voxel Fusion Network (PVF-Net). HVFR improves performance by enhancing features for critical voxels, reducing computational cost. MOD introduces an `occluded' class to better handle regions obscured from sensor view, improving accuracy. PVF-Net leverages densified LiDAR features to effectively fuse camera and LiDAR data through a deformable attention mechanism. Extensive experiments demonstrate that MR-Occ achieves state-of-the-art performance on the nuScenes-Occupancy dataset, surpassing previous approaches by +5.2% in IoU and +5.3% in mIoU while using fewer parameters and FLOPs. Moreover, MR-Occ demonstrates superior performance on the SemanticKITTI dataset, further validating its effectiveness and generalizability across diverse 3D semantic occupancy benchmarks.
- Abstract(参考訳): 自動運転車の環境を理解するためには、正確な3D知覚が不可欠である。
近年の3Dセマンティック占有予測の進歩は、カメラとLiDARの融合を利用して、堅牢性と精度を向上させる。
しかし、現在の手法では全てのボクセルに一様に計算資源を割り当て、効率が悪く、オクルージョンに適切に対処することができないため、難解なシナリオでは精度が低下する。
本稿では,HVFR,MOD,Voxel Fusion Network(PVF-Net)の3つの主要コンポーネントを用いて,カメラ-LiDAR融合に基づく3次元セマンティック占有予測の新たなアプローチであるMR-Occを提案する。
HVFRは重要なボクセルの機能を強化し、計算コストを削減することで性能を向上させる。
MODは‘occluded’クラスを導入し、センサビューから隠された領域の処理を改善し、精度を向上させる。
PVF-Netは、デフォルマブルアテンション機構を通じてカメラとLiDARデータを効果的に融合するために、密度の高いLiDAR機能を利用する。
大規模な実験では、MR-OccがnuScenes-Occupancyデータセット上での最先端のパフォーマンスを達成し、IoUでは+5.2%、mIoUでは+5.3%、パラメータやFLOPが少ない。
さらに、MR-OccはSemanticKITTIデータセット上で優れた性能を示し、様々な3Dセマンティック占有ベンチマークでその有効性と一般化性を検証する。
関連論文リスト
- ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - OccLoff: Learning Optimized Feature Fusion for 3D Occupancy Prediction [5.285847977231642]
3Dセマンティック占有予測は、自動運転の安全性を確保するために不可欠である。
既存のフュージョンベースの占有法では、画像の特徴に対して2次元から3次元のビュー変換を行うのが一般的である。
OccLoffは3次元占有予測のためにFeature Fusionを最適化するフレームワークである。
論文 参考訳(メタデータ) (2024-11-06T06:34:27Z) - DAOcc: 3D Object Detection Assisted Multi-Sensor Fusion for 3D Occupancy Prediction [11.349017382503986]
マルチセンサー融合は3次元意味的占有予測の精度と堅牢性を著しく向上させる。
既存のアプローチのほとんどは、トップパフォーマンスを達成するために大きな画像解像度と複雑なネットワークに依存している。
本稿では,3次元物体検出監視を利用して優れた性能を実現する,新しいマルチモーダル占有予測フレームワークであるBEccを提案する。
論文 参考訳(メタデータ) (2024-09-30T05:53:31Z) - Unleashing the Potential of Mamba: Boosting a LiDAR 3D Sparse Detector by Using Cross-Model Knowledge Distillation [22.653014803666668]
FASDと呼ばれる高速LiDAR3Dオブジェクト検出フレームワークを提案する。
高速シーケンスモデリングのための変換器のキャパシティをFLOPの低いMambaモデルに蒸留し,知識伝達による精度の向上を実現することを目的とする。
我々は,データセットとnuScenesのフレームワークを評価し,リソース消費の4倍の削減と,現在のSoTA手法よりも1-2%の性能向上を実現した。
論文 参考訳(メタデータ) (2024-09-17T09:30:43Z) - Multi-Modal Data-Efficient 3D Scene Understanding for Autonomous Driving [58.16024314532443]
我々は、異なるLiDARスキャンからレーザービーム操作を統合するフレームワークであるLaserMix++を導入し、データ効率の学習を支援するためにLiDAR-カメラ対応を組み込んだ。
結果は、LaserMix++が完全に教師付き代替よりも優れており、5倍のアノテーションで同等の精度を実現していることを示している。
この大幅な進歩は、LiDARベースの3Dシーン理解システムにおける広範囲なラベル付きデータへの依存を減らすための半教師付きアプローチの可能性を示している。
論文 参考訳(メタデータ) (2024-05-08T17:59:53Z) - Cross-Cluster Shifting for Efficient and Effective 3D Object Detection
in Autonomous Driving [69.20604395205248]
本稿では,自律運転における3次元物体検出のための3次元点検出モデルであるShift-SSDを提案する。
我々は、ポイントベース検出器の表現能力を解き放つために、興味深いクロスクラスタシフト操作を導入する。
我々は、KITTI、ランタイム、nuScenesデータセットに関する広範な実験を行い、Shift-SSDの最先端性能を実証した。
論文 参考訳(メタデータ) (2024-03-10T10:36:32Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - EPNet++: Cascade Bi-directional Fusion for Multi-Modal 3D Object
Detection [56.03081616213012]
本稿では,新しいCasscade Bi-directional Fusion(CB-Fusion)モジュールを導入することで,マルチモーダル3Dオブジェクト検出のためのEPNet++を提案する。
提案したCB-Fusionモジュールは、カスケード双方向相互作用融合方式で画像特徴と点特徴の豊富な意味情報を高める。
KITTI、JRDB、SUN-RGBDデータセットの実験結果は、最先端の手法よりもEPNet++の方が優れていることを示している。
論文 参考訳(メタデータ) (2021-12-21T10:48:34Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。