論文の概要: OccCylindrical: Multi-Modal Fusion with Cylindrical Representation for 3D Semantic Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2505.03284v1
- Date: Tue, 06 May 2025 08:12:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.250507
- Title: OccCylindrical: Multi-Modal Fusion with Cylindrical Representation for 3D Semantic Occupancy Prediction
- Title(参考訳): OccCylindrical: Multi-Modal Fusion with Cylindrical Representation for 3D Semantic Occupancy Prediction
- Authors: Zhenxing Ming, Julie Stephany Berrio, Mao Shan, Yaoqi Huang, Hongyu Lyu, Nguyen Hoang Khoi Tran, Tzu-Yun Tseng, Stewart Worrall,
- Abstract要約: そこで我々は,OccCylindricalを提案する。
提案手法は, より微細な形状の細部を保存し, 性能を向上する。
雨と夜間のシナリオに挑戦するnuScenesデータセットで実施された実験は、我々のアプローチの有効性と最先端のパフォーマンスを確認します。
- 参考スコア(独自算出の注目度): 9.099401529072324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The safe operation of autonomous vehicles (AVs) is highly dependent on their understanding of the surroundings. For this, the task of 3D semantic occupancy prediction divides the space around the sensors into voxels, and labels each voxel with both occupancy and semantic information. Recent perception models have used multisensor fusion to perform this task. However, existing multisensor fusion-based approaches focus mainly on using sensor information in the Cartesian coordinate system. This ignores the distribution of the sensor readings, leading to a loss of fine-grained details and performance degradation. In this paper, we propose OccCylindrical that merges and refines the different modality features under cylindrical coordinates. Our method preserves more fine-grained geometry detail that leads to better performance. Extensive experiments conducted on the nuScenes dataset, including challenging rainy and nighttime scenarios, confirm our approach's effectiveness and state-of-the-art performance. The code will be available at: https://github.com/DanielMing123/OccCylindrical
- Abstract(参考訳): 自動運転車(AV)の安全運転は、周囲の理解に大きく依存している。
このために、3Dセマンティック占有予測のタスクは、センサーの周囲の空間をボクセルに分割し、各ボクセルに占有情報と意味情報の両方をラベル付けする。
近年の知覚モデルでは、このタスクにマルチセンサーフュージョンを用いている。
しかし、既存のマルチセンサー融合に基づくアプローチは、主にカルテシアン座標系におけるセンサ情報の利用に焦点を当てている。
これによりセンサの読み出しの分布が無視され、細かな細部が失われ、性能が低下する。
本稿では,OccCylindrical を用いて,円筒座標の下で異なるモジュラリティ特性を融合し,洗練する手法を提案する。
提案手法は, より微細な形状の細部を保存し, 性能を向上する。
雨と夜間のシナリオに挑戦するnuScenesデータセットで実施された大規模な実験は、我々のアプローチの有効性と最先端のパフォーマンスを確認します。
コードは以下の通り。 https://github.com/DanielMing123/OccCylindrical
関連論文リスト
- GaussRender: Learning 3D Occupancy with Gaussian Rendering [86.89653628311565]
GaussRenderは、投影的一貫性を強制することによって3D占有学習を改善するモジュールである。
提案手法は,不整合な2次元プロジェクションを生成する3次元構成をペナライズすることにより,より一貫性のある3次元構造を実現する。
論文 参考訳(メタデータ) (2025-02-07T16:07:51Z) - Robust 3D Semantic Occupancy Prediction with Calibration-free Spatial Transformation [32.50849425431012]
マルチカメラとLiDARを備えた自動運転車では、高精度で堅牢な予測のために、マルチセンサー情報を統一された3D空間に集約することが重要である。
最近の手法は主にセンサキャリブレーションに依存する2D-to-3D変換に基づいて構築され,2D画像情報を3D空間に投影する。
本研究では,空間対応を暗黙的にモデル化するために,バニラ注意に基づく校正自由空間変換を提案する。
論文 参考訳(メタデータ) (2024-11-19T02:40:42Z) - OccFusion: Multi-Sensor Fusion Framework for 3D Semantic Occupancy Prediction [11.33083039877258]
本稿では,3次元占有予測のための新しいセンサ融合フレームワークであるOccFusionを紹介する。
ライダーやサラウンドビューレーダなどの付加センサの機能を統合することで、我々のフレームワークは占有率予測の精度と堅牢性を高めることができる。
論文 参考訳(メタデータ) (2024-03-03T23:46:06Z) - PointOcc: Cylindrical Tri-Perspective View for Point-based 3D Semantic
Occupancy Prediction [72.75478398447396]
本稿では,点雲を効果的かつ包括的に表現する円筒型三重対視図を提案する。
また,LiDAR点雲の距離分布を考慮し,円筒座標系における三点ビューを構築した。
プロジェクション中に構造の詳細を維持するために空間群プーリングを使用し、各TPV平面を効率的に処理するために2次元バックボーンを採用する。
論文 参考訳(メタデータ) (2023-08-31T17:57:17Z) - UniTR: A Unified and Efficient Multi-Modal Transformer for
Bird's-Eye-View Representation [113.35352122662752]
屋外3次元知覚のためのマルチモーダルバックボーンUniTRを提案する。
UniTRは、統一されたモデリングと共有パラメータで様々なモダリティを処理する。
UniTRは基本的にタスクに依存しないバックボーンであり、異なる3D知覚タスクを自然にサポートする。
論文 参考訳(メタデータ) (2023-08-15T12:13:44Z) - Multi-Modal 3D Object Detection by Box Matching [109.43430123791684]
マルチモーダル3次元検出のためのボックスマッチング(FBMNet)による新しいフュージョンネットワークを提案する。
3Dオブジェクトと2Dオブジェクトの提案を学習することで、ROI特徴を組み合わせることで、検出のための融合を効果的に行うことができる。
論文 参考訳(メタデータ) (2023-05-12T18:08:51Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation [105.96557764248846]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。