論文の概要: Co-Occ: Coupling Explicit Feature Fusion with Volume Rendering Regularization for Multi-Modal 3D Semantic Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2404.04561v3
- Date: Wed, 22 May 2024 03:43:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 05:40:24.920248
- Title: Co-Occ: Coupling Explicit Feature Fusion with Volume Rendering Regularization for Multi-Modal 3D Semantic Occupancy Prediction
- Title(参考訳): Co-Occ:マルチモーダル3次元セマンティック動作予測のためのボリュームレンダリング規則化による明示的特徴融合の結合
- Authors: Jingyi Pan, Zipeng Wang, Lin Wang,
- Abstract要約: このレターは、Co-Occと呼ばれる新しいマルチモーダル、すなわちLiDARカメラ3Dセマンティック占有予測フレームワークを提示する。
特徴空間におけるボリュームレンダリングは、3D LiDARスイープと2D画像の間のギャップを十分に埋めることができる。
- 参考スコア(独自算出の注目度): 10.698054425507475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D semantic occupancy prediction is a pivotal task in the field of autonomous driving. Recent approaches have made great advances in 3D semantic occupancy predictions on a single modality. However, multi-modal semantic occupancy prediction approaches have encountered difficulties in dealing with the modality heterogeneity, modality misalignment, and insufficient modality interactions that arise during the fusion of different modalities data, which may result in the loss of important geometric and semantic information. This letter presents a novel multi-modal, i.e., LiDAR-camera 3D semantic occupancy prediction framework, dubbed Co-Occ, which couples explicit LiDAR-camera feature fusion with implicit volume rendering regularization. The key insight is that volume rendering in the feature space can proficiently bridge the gap between 3D LiDAR sweeps and 2D images while serving as a physical regularization to enhance LiDAR-camera fused volumetric representation. Specifically, we first propose a Geometric- and Semantic-aware Fusion (GSFusion) module to explicitly enhance LiDAR features by incorporating neighboring camera features through a K-nearest neighbors (KNN) search. Then, we employ volume rendering to project the fused feature back to the image planes for reconstructing color and depth maps. These maps are then supervised by input images from the camera and depth estimations derived from LiDAR, respectively. Extensive experiments on the popular nuScenes and SemanticKITTI benchmarks verify the effectiveness of our Co-Occ for 3D semantic occupancy prediction. The project page is available at https://rorisis.github.io/Co-Occ_project-page/.
- Abstract(参考訳): 3Dセマンティック占有予測は、自動運転分野における重要な課題である。
近年のアプローチは、単一モードでの3Dセマンティック占有率予測に大きな進歩をもたらした。
しかし、マルチモーダルなセマンティック占有予測手法は、異なるモダリティデータの融合時に生じるモダリティの不均一性、モダリティの不整合、および不十分なモダリティ相互作用に対処する上で困難に直面しており、重要な幾何学的およびセマンティックな情報が失われる可能性がある。
この手紙は、新しいマルチモーダル、すなわちCo-Occと呼ばれるLiDAR-camera 3Dセマンティック占有予測フレームワークを提示し、これは暗黙のボリュームレンダリング規則化と明示的なLiDAR-camera特徴融合を結合している。
キーとなる洞察は、機能空間におけるボリュームレンダリングは、3D LiDARスイープと2D画像のギャップを十分に埋めると同時に、LiDARカメラで融合したボリューム表現を強化する物理的な正規化として機能するということである。
具体的には、K-nearest neighbors (KNN)サーチにより、隣接するカメラ機能を組み込むことで、LiDAR機能を明示的に拡張するGeometric- and Semantic-aware Fusion (GSFusion)モジュールを提案する。
次に,画像面に融合した特徴を投影するためにボリュームレンダリングを用い,色と深度マップを再構成する。
これらのマップは、カメラからの入力画像と、LiDARから導出される深さ推定によって監視される。
一般的なnuScenesとSemanticKITTIベンチマークの大規模な実験により、我々のCo-Occの3Dセマンティック占有予測の有効性が検証された。
プロジェクトのページはhttps://rorisis.github.io/Co-Occ_project-page/.comで公開されている。
関連論文リスト
- BiCo-Fusion: Bidirectional Complementary LiDAR-Camera Fusion for Semantic- and Spatial-Aware 3D Object Detection [10.321117046185321]
この手紙は、BiCo-Fusionと呼ばれる新しい双方向補体Lidar-Camera融合フレームワークを提案する。
重要な洞察は、LiDAR特徴のセマンティクスとカメラ特徴の空間的認識を強化するために、マルチモーダル特徴を相互に融合させることである。
次に、Unified Fusionを導入して、魔法のLidarとカメラの機能から選択した機能を適応的に重み付けし、統一された3D表現を構築する。
論文 参考訳(メタデータ) (2024-06-27T09:56:38Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - SLCF-Net: Sequential LiDAR-Camera Fusion for Semantic Scene Completion using a 3D Recurrent U-Net [18.342569823885864]
SLCF-Netは、LiDARとカメラデータを逐次融合するSemantic Scene Completionタスクの新しいアプローチである。
それは、RGB画像のシーケンスと疎LiDAR測定から、シーンの欠落した幾何学と意味を共同で推定する。
すべてのSSC測定値に優れ、時間的整合性を示す。
論文 参考訳(メタデータ) (2024-03-13T18:12:53Z) - Regulating Intermediate 3D Features for Vision-Centric Autonomous
Driving [26.03800936700545]
本稿では,ボリュームレンダリングの助けを借りて,中間的な高密度な3次元特徴を規制することを提案する。
Occ3DデータセットとnuScenesデータセットの実験結果から、ヴァンパイアは密度の高い3D特徴の微細で適切な抽出を容易にすることが示された。
論文 参考訳(メタデータ) (2023-12-19T04:09:05Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
マルチカメラ画像を用いたSurroundOcc法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:59:08Z) - MSeg3D: Multi-modal 3D Semantic Segmentation for Autonomous Driving [15.36416000750147]
マルチモーダルな3次元セマンティックセグメンテーションモデル(MSeg3D)を提案する。
MSeg3Dは依然として堅牢性を示し、LiDARのみのベースラインを改善している。
論文 参考訳(メタデータ) (2023-03-15T13:13:03Z) - MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth
Seeds for 3D Object Detection [89.26380781863665]
自律運転システムにおける高精度で信頼性の高い3次元物体検出を実現するためには,LiDARとカメラ情報の融合が不可欠である。
近年のアプローチでは、2次元カメラ画像の3次元空間への昇華点によるカメラ特徴のセマンティックな密度の探索が試みられている。
マルチグラニュラリティLiDARとカメラ機能とのマルチスケールなプログレッシブインタラクションに焦点を当てた,新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-07T12:29:29Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - Volumetric Propagation Network: Stereo-LiDAR Fusion for Long-Range Depth
Estimation [81.08111209632501]
長距離深度推定のための幾何認識型ステレオLiDAR融合ネットワークを提案する。
ステレオ画像の対応を統一した3Dボリューム空間で導くためのキューとして、スパースで正確な点群を活用します。
我々のネットワークは,KITTIおよびVirtual-KITTIデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-03-24T03:24:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。