Fugu-MT 論文翻訳(概要): Co-Occ: Coupling Explicit Feature Fusion with Volume Rendering Regularization for Multi-Modal 3D Semantic Occupancy Prediction

論文の概要: Co-Occ: Coupling Explicit Feature Fusion with Volume Rendering Regularization for Multi-Modal 3D Semantic Occupancy Prediction

arxiv url: http://arxiv.org/abs/2404.04561v3
Date: Wed, 22 May 2024 03:43:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-25 05:40:24.920248
Title: Co-Occ: Coupling Explicit Feature Fusion with Volume Rendering Regularization for Multi-Modal 3D Semantic Occupancy Prediction
Title（参考訳）: Co-Occ:マルチモーダル3次元セマンティック動作予測のためのボリュームレンダリング規則化による明示的特徴融合の結合
Authors: Jingyi Pan, Zipeng Wang, Lin Wang,
Abstract要約: このレターは、Co-Occと呼ばれる新しいマルチモーダル、すなわちLiDARカメラ3Dセマンティック占有予測フレームワークを提示する。特徴空間におけるボリュームレンダリングは、3D LiDARスイープと2D画像の間のギャップを十分に埋めることができる。
参考スコア（独自算出の注目度）: 10.698054425507475
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: 3D semantic occupancy prediction is a pivotal task in the field of autonomous driving. Recent approaches have made great advances in 3D semantic occupancy predictions on a single modality. However, multi-modal semantic occupancy prediction approaches have encountered difficulties in dealing with the modality heterogeneity, modality misalignment, and insufficient modality interactions that arise during the fusion of different modalities data, which may result in the loss of important geometric and semantic information. This letter presents a novel multi-modal, i.e., LiDAR-camera 3D semantic occupancy prediction framework, dubbed Co-Occ, which couples explicit LiDAR-camera feature fusion with implicit volume rendering regularization. The key insight is that volume rendering in the feature space can proficiently bridge the gap between 3D LiDAR sweeps and 2D images while serving as a physical regularization to enhance LiDAR-camera fused volumetric representation. Specifically, we first propose a Geometric- and Semantic-aware Fusion (GSFusion) module to explicitly enhance LiDAR features by incorporating neighboring camera features through a K-nearest neighbors (KNN) search. Then, we employ volume rendering to project the fused feature back to the image planes for reconstructing color and depth maps. These maps are then supervised by input images from the camera and depth estimations derived from LiDAR, respectively. Extensive experiments on the popular nuScenes and SemanticKITTI benchmarks verify the effectiveness of our Co-Occ for 3D semantic occupancy prediction. The project page is available at https://rorisis.github.io/Co-Occ_project-page/.
Abstract（参考訳）: 3Dセマンティック占有予測は、自動運転分野における重要な課題である。近年のアプローチは、単一モードでの3Dセマンティック占有率予測に大きな進歩をもたらした。しかし、マルチモーダルなセマンティック占有予測手法は、異なるモダリティデータの融合時に生じるモダリティの不均一性、モダリティの不整合、および不十分なモダリティ相互作用に対処する上で困難に直面しており、重要な幾何学的およびセマンティックな情報が失われる可能性がある。この手紙は、新しいマルチモーダル、すなわちCo-Occと呼ばれるLiDAR-camera 3Dセマンティック占有予測フレームワークを提示し、これは暗黙のボリュームレンダリング規則化と明示的なLiDAR-camera特徴融合を結合している。キーとなる洞察は、機能空間におけるボリュームレンダリングは、3D LiDARスイープと2D画像のギャップを十分に埋めると同時に、LiDARカメラで融合したボリューム表現を強化する物理的な正規化として機能するということである。具体的には、K-nearest neighbors (KNN)サーチにより、隣接するカメラ機能を組み込むことで、LiDAR機能を明示的に拡張するGeometric- and Semantic-aware Fusion (GSFusion)モジュールを提案する。次に,画像面に融合した特徴を投影するためにボリュームレンダリングを用い,色と深度マップを再構成する。これらのマップは、カメラからの入力画像と、LiDARから導出される深さ推定によって監視される。一般的なnuScenesとSemanticKITTIベンチマークの大規模な実験により、我々のCo-Occの3Dセマンティック占有予測の有効性が検証された。プロジェクトのページはhttps://rorisis.github.io/Co-Occ_project-page/.comで公開されている。

関連論文リスト

SDGOCC: Semantic and Depth-Guided Bird's-Eye View Transformation for 3D Multimodal Occupancy Prediction [8.723840755505817]
SDG-OCCと呼ばれる新しいマルチモーダル占有予測ネットワークを提案する。ジョイントセマンティックとディープ誘導ビュー変換と、融合により占有されるアクティブ蒸留が組み込まれている。提案手法は,Occ3D-nuScenesデータセットをリアルタイムに処理することで,最先端(SOTA)性能を実現する。
論文参考訳（メタデータ） (2025-07-22T23:49:40Z)
TACOcc:Target-Adaptive Cross-Modal Fusion with Volume Rendering for 3D Semantic Occupancy [14.075911467687789]
本稿では,3次元意味的占有予測のためのターゲットスケール適応対称検索機構を提案する。大規模なターゲットのために地区を拡張し、コンテキスト認識を強化し、小さなターゲットのためにそれを縮小し、効率を改善し、騒音を抑える。本稿では,3次元意味的占有予測のための適応型マルチモーダル融合フレームワークTACOccを提案する。
論文参考訳（メタデータ） (2025-05-19T04:32:36Z)
GaussianFormer3D: Multi-Modal Gaussian-based Semantic Occupancy Prediction with 3D Deformable Attention [15.890744831541452]
3Dセマンティック占有予測は、安全で信頼性の高い自動運転を実現するために重要である。本稿では,3次元変形可能な注意力を利用したマルチモーダルガウスに基づくセマンティック占有予測フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-15T20:05:08Z)
Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding [58.38294408121273]
CUA-O3Dと呼ばれるオープン語彙3次元シーン理解のためのクロスモーダル・不確実性認識アグリゲーションを提案する。提案手法は,(1)空間認識型視覚基盤モデルの幾何学的知識とともに,VLMのセマンティックな先入観を取り入れること,(2)モデル固有の不確かさを捉えるために,新しい決定論的不確実性推定を用いること,の2つの課題に対処する。
論文参考訳（メタデータ） (2025-03-20T20:58:48Z)
ViPOcc: Leveraging Visual Priors from Vision Foundation Models for Single-View 3D Occupancy Prediction [11.312780421161204]
本稿では,視覚基盤モデルからの視覚的先行情報を活用して,詳細な3D占有率予測を行うViPOccを提案する。また,効率的な実例認識光サンプリングのための意味誘導型非重複ガウス混合サンプリング器を提案する。本実験は,3次元占有予測と深度推定の両方において,ViPOccの優れた性能を示す。
論文参考訳（メタデータ） (2024-12-15T15:04:27Z)
CVCP-Fusion: On Implicit Depth Estimation for 3D Bounding Box Prediction [2.0375637582248136]
Cross-View Center Point-Fusionは、3Dオブジェクト検出を行う最先端モデルである。我々のアーキテクチャは、以前に確立されたアルゴリズム、クロスビュートランスフォーマー、CenterPointのアスペクトを利用する。
論文参考訳（メタデータ） (2024-10-15T02:55:07Z)
BiCo-Fusion: Bidirectional Complementary LiDAR-Camera Fusion for Semantic- and Spatial-Aware 3D Object Detection [10.321117046185321]
この手紙は、BiCo-Fusionと呼ばれる新しい双方向補体Lidar-Camera融合フレームワークを提案する。重要な洞察は、LiDAR特徴のセマンティクスとカメラ特徴の空間的認識を強化するために、マルチモーダル特徴を相互に融合させることである。次に、Unified Fusionを導入して、魔法のLidarとカメラの機能から選択した機能を適応的に重み付けし、統一された3D表現を構築する。
論文参考訳（メタデータ） (2024-06-27T09:56:38Z)
GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文参考訳（メタデータ） (2024-05-17T07:31:20Z)
Regulating Intermediate 3D Features for Vision-Centric Autonomous Driving [26.03800936700545]
本稿では,ボリュームレンダリングの助けを借りて,中間的な高密度な3次元特徴を規制することを提案する。 Occ3DデータセットとnuScenesデータセットの実験結果から、ヴァンパイアは密度の高い3D特徴の微細で適切な抽出を容易にすることが示された。
論文参考訳（メタデータ） (2023-12-19T04:09:05Z)
OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文参考訳（メタデータ） (2023-12-14T18:58:52Z)
SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。マルチカメラ画像を用いたSurroundOcc法を提案する。
論文参考訳（メタデータ） (2023-03-16T17:59:08Z)
MSeg3D: Multi-modal 3D Semantic Segmentation for Autonomous Driving [15.36416000750147]
マルチモーダルな3次元セマンティックセグメンテーションモデル(MSeg3D)を提案する。 MSeg3Dは依然として堅牢性を示し、LiDARのみのベースラインを改善している。
論文参考訳（メタデータ） (2023-03-15T13:13:03Z)
MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth Seeds for 3D Object Detection [89.26380781863665]
自律運転システムにおける高精度で信頼性の高い3次元物体検出を実現するためには,LiDARとカメラ情報の融合が不可欠である。近年のアプローチでは、2次元カメラ画像の3次元空間への昇華点によるカメラ特徴のセマンティックな密度の探索が試みられている。マルチグラニュラリティLiDARとカメラ機能とのマルチスケールなプログレッシブインタラクションに焦点を当てた,新しいフレームワークを提案する。
論文参考訳（メタデータ） (2022-09-07T12:29:29Z)
Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2021-09-12T06:25:11Z)
Volumetric Propagation Network: Stereo-LiDAR Fusion for Long-Range Depth Estimation [81.08111209632501]
長距離深度推定のための幾何認識型ステレオLiDAR融合ネットワークを提案する。ステレオ画像の対応を統一した3Dボリューム空間で導くためのキューとして、スパースで正確な点群を活用します。我々のネットワークは,KITTIおよびVirtual-KITTIデータセット上での最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2021-03-24T03:24:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。