論文の概要: MS-Occ: Multi-Stage LiDAR-Camera Fusion for 3D Semantic Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2504.15888v1
- Date: Tue, 22 Apr 2025 13:33:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 18:17:43.330217
- Title: MS-Occ: Multi-Stage LiDAR-Camera Fusion for 3D Semantic Occupancy Prediction
- Title(参考訳): MS-Occ:多段LiDAR-Camera Fusionによる3次元セマンティック動作予測
- Authors: Zhiqiang Wei, Lianqing Zheng, Jianan Liu, Tao Huang, Qing-Long Han, Wenwen Zhang, Fengdeng Zhang,
- Abstract要約: MS-Occは、新しいマルチステージLiDARカメラ融合フレームワークである。
これはLiDARの幾何学的忠実度とカメラベースのセマンティックリッチネスを統合する。
実験の結果、MS-Occは連合(IoU)を32.1%、平均IoU(mIoU)を25.3%で割った。
- 参考スコア(独自算出の注目度): 15.656771219382076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate 3D semantic occupancy perception is essential for autonomous driving in complex environments with diverse and irregular objects. While vision-centric methods suffer from geometric inaccuracies, LiDAR-based approaches often lack rich semantic information. To address these limitations, MS-Occ, a novel multi-stage LiDAR-camera fusion framework which includes middle-stage fusion and late-stage fusion, is proposed, integrating LiDAR's geometric fidelity with camera-based semantic richness via hierarchical cross-modal fusion. The framework introduces innovations at two critical stages: (1) In the middle-stage feature fusion, the Gaussian-Geo module leverages Gaussian kernel rendering on sparse LiDAR depth maps to enhance 2D image features with dense geometric priors, and the Semantic-Aware module enriches LiDAR voxels with semantic context via deformable cross-attention; (2) In the late-stage voxel fusion, the Adaptive Fusion (AF) module dynamically balances voxel features across modalities, while the High Classification Confidence Voxel Fusion (HCCVF) module resolves semantic inconsistencies using self-attention-based refinement. Experiments on the nuScenes-OpenOccupancy benchmark show that MS-Occ achieves an Intersection over Union (IoU) of 32.1% and a mean IoU (mIoU) of 25.3%, surpassing the state-of-the-art by +0.7% IoU and +2.4% mIoU. Ablation studies further validate the contribution of each module, with substantial improvements in small-object perception, demonstrating the practical value of MS-Occ for safety-critical autonomous driving scenarios.
- Abstract(参考訳): 多様な不規則な物体を持つ複雑な環境下での自律走行には,正確な3Dセマンティック占有感が不可欠である。
視覚中心の手法は幾何学的不正確さに悩まされるが、LiDARベースのアプローチはリッチな意味情報を欠くことが多い。
これらの制約に対処するため、中段核融合と後期核融合を含む新しい多段核融合フレームワークであるMS-Occが提案され、LiDARの幾何学的忠実度と階層的クロスモーダル核融合によるカメラベースセマンティックリッチネスを統合する。
このフレームワークは, 中間段階の機能融合において, ガウス・ゲオモジュールは, 粗いLiDAR深度マップ上のガウスカーネルレンダリングを活用して, 密度の高い幾何学的先行性を持つ2次元画像特徴を向上し, セマンティック・アウェアモジュールは, 変形可能なクロスアテンションを通じて意味的コンテキストを持つLiDARボクセルを豊かにする; 2) 後期段階のボクセル融合では, 適応融合(AF)モジュールは, モダリティ間でのボクセル特徴の動的バランスをとる一方, 高分類信頼ボクセル融合(HCCVF)モジュールは自己アテンションに基づく洗練を用いて意味的不整合を解消する。
nuScenes-OpenOccupancyベンチマークの実験では、MS-Occは32.1%、平均IoU(mIoU)は25.3%、最先端は+0.7%、IoUは+2.4%である。
アブレーション研究は、各モジュールの貢献をさらに検証し、小さな物体知覚を著しく改善し、安全クリティカルな自律運転シナリオに対するMS-Occの実用的価値を実証した。
関連論文リスト
- SSLFusion: Scale & Space Aligned Latent Fusion Model for Multimodal 3D Object Detection [24.367371441506116]
ディープニューラルネットワークに基づくマルチモーダル3Dオブジェクト検出は、確かに大きな進歩を遂げている。
しかし,2次元画像から抽出した特徴と3次元点雲から抽出した特徴との間の空間的情報とスケールのずれにより,依然として課題に直面している。
本稿では,3次元から2次元の空間アライメントモジュールと,遅延モードの相互融合モジュールからなる,新しいスケール・スペースアラインド・ラテントフュージョンモデルであるSSLFusionを紹介する。
論文 参考訳(メタデータ) (2025-04-07T15:15:06Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [63.87313550399871]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基礎モデルと潜在空間アライメントによるクロスモーダルな知識伝達を確立する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - Explore the LiDAR-Camera Dynamic Adjustment Fusion for 3D Object Detection [38.809645060899065]
カメラとLiDARは、正確で堅牢な自動運転システムの情報センサーとして機能する。
これらのセンサーは、しばしば異質な性質を示し、分布のモダリティギャップをもたらす。
モーダル分布の整合と効果的なモーダル表現の学習を目的とした動的調整技術を導入する。
論文 参考訳(メタデータ) (2024-07-22T02:42:15Z) - BiCo-Fusion: Bidirectional Complementary LiDAR-Camera Fusion for Semantic- and Spatial-Aware 3D Object Detection [10.321117046185321]
新しいトレンドはマルチモーダル入力、すなわちLiDARとカメラを融合させることである。
LiDARの機能は詳細なセマンティック情報と格闘し、カメラは正確な3D空間情報を欠いている。
BiCo-Fusionは、ロバストなセマンティックおよび空間認識の3Dオブジェクト検出を実現する。
論文 参考訳(メタデータ) (2024-06-27T09:56:38Z) - AlignMiF: Geometry-Aligned Multimodal Implicit Field for LiDAR-Camera
Joint Synthesis [98.3959800235485]
近年,複数のモダリティを単一のフィールド内で探索する手法がいくつか存在しており,異なるモダリティから暗黙的な特徴を共有して再現性能を向上させることを目的としている。
本研究では,LiDAR-カメラ共同合成の多モード暗黙的場に関する包括的解析を行い,その根底にある問題はセンサの誤配にあることを示した。
幾何学的に整合した多モード暗黙の場であるAlignMiFを導入し,2つのモジュール,Geometry-Aware Alignment (GAA) とShared Geometry Initialization (SGI)を提案する。
論文 参考訳(メタデータ) (2024-02-27T13:08:47Z) - MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection [54.52102265418295]
MLF-DETと呼ばれる,高性能なクロスモーダル3DオブジェクトDrectionのための,新規かつ効果的なマルチレベルフュージョンネットワークを提案する。
特徴レベルの融合では、マルチスケールのボクセル特徴と画像の特徴を密集したマルチスケールのボクセル画像融合(MVI)モジュールを提示する。
本稿では,画像のセマンティクスを利用して検出候補の信頼度を補正するFCR(Feature-cued Confidence Rectification)モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-18T11:26:02Z) - Sparse Dense Fusion for 3D Object Detection [24.288662560178334]
カメラ-LiDAR融合は3Dオブジェクト検出で人気を博している。
我々は,1)3次元の幾何学的先行情報を保持するが,カメラからリッチな意味情報を失うこと,2)密度のみの代替手段が意味的連続性を保持すること,そして,LiDARの正確な幾何学的情報を見逃すこと,の2つの課題を分析する。
本稿では,Sparse Dense Fusion(SDF)を提案する。Sparse Dense Fusion(SDF)は,Transformerアーキテクチャを通じて,スパースフュージョンと高密度フュージョンモジュールの両方を組み込んだ補完的なフレームワークである。
論文 参考訳(メタデータ) (2023-04-09T07:10:34Z) - FusionRCNN: LiDAR-Camera Fusion for Two-stage 3D Object Detection [11.962073589763676]
既存の3D検出器は、2段階のパラダイムを採用することで精度を大幅に向上させる。
特に遠く離れた地点では、点雲の広がりは、LiDARのみの精製モジュールがオブジェクトを正確に認識し、配置することを困難にしている。
We propose a novel multi-modality two-stage approach called FusionRCNN, which is effective and efficient fuses point clouds and camera image in the Regions of Interest(RoI)。
FusionRCNNは、強力なSECONDベースラインを6.14%のmAPで大幅に改善し、競合する2段階アプローチよりも優れている。
論文 参考訳(メタデータ) (2022-09-22T02:07:25Z) - MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth
Seeds for 3D Object Detection [89.26380781863665]
自律運転システムにおける高精度で信頼性の高い3次元物体検出を実現するためには,LiDARとカメラ情報の融合が不可欠である。
近年のアプローチでは、2次元カメラ画像の3次元空間への昇華点によるカメラ特徴のセマンティックな密度の探索が試みられている。
マルチグラニュラリティLiDARとカメラ機能とのマルチスケールなプログレッシブインタラクションに焦点を当てた,新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-07T12:29:29Z) - Similarity-Aware Fusion Network for 3D Semantic Segmentation [87.51314162700315]
本研究では,3次元セマンティックセグメンテーションのための2次元画像と3次元点雲を適応的に融合する類似性認識融合ネットワーク(SAFNet)を提案する。
我々は、入力とバックプロジェクションされた(2Dピクセルから)点雲の間の幾何学的および文脈的類似性を初めて学習する、後期融合戦略を採用している。
SAFNetは、様々なデータ完全性にまたがって、既存の最先端の核融合ベースのアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2021-07-04T09:28:18Z) - Volumetric Propagation Network: Stereo-LiDAR Fusion for Long-Range Depth
Estimation [81.08111209632501]
長距離深度推定のための幾何認識型ステレオLiDAR融合ネットワークを提案する。
ステレオ画像の対応を統一した3Dボリューム空間で導くためのキューとして、スパースで正確な点群を活用します。
我々のネットワークは,KITTIおよびVirtual-KITTIデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-03-24T03:24:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。