論文の概要: PVP: Polar Representation Boost for 3D Semantic Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2412.07616v1
- Date: Tue, 10 Dec 2024 15:54:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:36:54.170895
- Title: PVP: Polar Representation Boost for 3D Semantic Occupancy Prediction
- Title(参考訳): PVP:3次元意味的活動予測のための極性表現の強化
- Authors: Yujing Xue, Jiaxiang Liu, Jiawei Du, Joey Tianyi Zhou,
- Abstract要約: 極座標で動作する新しい3次元マルチモーダル予測器であるPolar Voxel Occupancy Predictor (PVP)を紹介する。
グローバル空間データを3Dボリュームに統合するGlobal Represent Propagationモジュールと、3D歪みを2D畳み込みに単純化するPlane Devolution Concomposed (PD-Conv)である。
これらのイノベーションにより、PVPは既存のメソッドよりも優れており、OpenOccupancyデータセット上のmIoUとIoUメトリクスの大幅な改善を実現している。
- 参考スコア(独自算出の注目度): 38.426636518614096
- License:
- Abstract: Recently, polar coordinate-based representations have shown promise for 3D perceptual tasks. Compared to Cartesian methods, polar grids provide a viable alternative, offering better detail preservation in nearby spaces while covering larger areas. However, they face feature distortion due to non-uniform division. To address these issues, we introduce the Polar Voxel Occupancy Predictor (PVP), a novel 3D multi-modal predictor that operates in polar coordinates. PVP features two key design elements to overcome distortion: a Global Represent Propagation (GRP) module that integrates global spatial data into 3D volumes, and a Plane Decomposed Convolution (PD-Conv) that simplifies 3D distortions into 2D convolutions. These innovations enable PVP to outperform existing methods, achieving significant improvements in mIoU and IoU metrics on the OpenOccupancy dataset.
- Abstract(参考訳): 近年,極座標に基づく表現は3次元知覚タスクの可能性を示唆している。
カルテシアン法と比較すると、極格子は、より広い領域をカバーしながら、近くの空間でより詳細な保存を提供する、実行可能な代替手段を提供する。
しかし、それらは一様でない分割によって特徴的歪みに直面している。
これらの問題に対処するために、ポーラVoxel Occupancy Predictor (PVP)を導入し、ポーラ座標で動作する新しい3Dマルチモーダル予測器を提案する。
グローバル空間データを3Dボリュームに統合するGlobal Represent Propagation (GRP)モジュールと、3D歪みを2D畳み込みに単純化するPlane Decomposed Convolution (PD-Conv)である。
これらのイノベーションにより、PVPは既存のメソッドよりも優れており、OpenOccupancyデータセット上のmIoUとIoUメトリクスの大幅な改善を実現している。
関連論文リスト
- PolarBEVDet: Exploring Polar Representation for Multi-View 3D Object Detection in Bird's-Eye-View [5.0458717114406975]
カルテシアンBEV表現の代替として極性BEV表現を用いることを提案する。
nuScenesの実験では、PolarBEVDetは優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-08-29T01:42:38Z) - NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized
Device Coordinates Space [77.6067460464962]
SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。
我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。
シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
論文 参考訳(メタデータ) (2023-09-26T02:09:52Z) - PointOcc: Cylindrical Tri-Perspective View for Point-based 3D Semantic
Occupancy Prediction [72.75478398447396]
本稿では,点雲を効果的かつ包括的に表現する円筒型三重対視図を提案する。
また,LiDAR点雲の距離分布を考慮し,円筒座標系における三点ビューを構築した。
プロジェクション中に構造の詳細を維持するために空間群プーリングを使用し、各TPV平面を効率的に処理するために2次元バックボーンを採用する。
論文 参考訳(メタデータ) (2023-08-31T17:57:17Z) - PolarFormer: Multi-camera 3D Object Detection with Polar Transformers [93.49713023975727]
自律運転における3次元物体検出は、3次元の世界に存在する「何」と「どこに」の物体を推論することを目的としている。
既存の手法はしばしば垂直軸を持つ標準カルテ座標系を採用する。
鳥眼ビュー(BEV)におけるより正確な3次元物体検出のための新しい極変換器(PolarFormer)を,マルチカメラ2D画像のみを入力として提案する。
論文 参考訳(メタデータ) (2022-06-30T16:32:48Z) - Group Shift Pointwise Convolution for Volumetric Medical Image
Segmentation [31.72090839643412]
本稿では,3次元畳み込みの有効性と効率を向上させるために,GSP-Conv(Group Shift Pointwise Convolution)を提案する。
GSP-Convは1x1x1カーネルで3D畳み込みをポイントワイズに単純化し、モデルパラメータやFLOPの数を劇的に削減する。
以上の結果から,本手法は3次元畳み込みモデルと同等あるいはそれ以上の性能が得られた。
論文 参考訳(メタデータ) (2021-09-26T15:27:33Z) - Multi Projection Fusion for Real-time Semantic Segmentation of 3D LiDAR
Point Clouds [2.924868086534434]
本稿では,ポイントクラウドの複数のプロジェクションを利用する3次元ポイントクラウドセマンティックセマンティックセマンティクスの新しいアプローチを提案する。
我々のMulti-Projection Fusionフレームワークは、2つの異なる高効率2次元完全畳み込みモデルを用いて球面および鳥眼の視射影を解析する。
論文 参考訳(メタデータ) (2020-11-03T19:40:43Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z) - KAPLAN: A 3D Point Descriptor for Shape Completion [80.15764700137383]
KAPLANは、一連の2D畳み込みを通じて局所的な形状情報を集約する3Dポイント記述子である。
各平面において、正規点や平面間距離のような点特性は2次元グリッドに集約され、効率的な2次元畳み込みエンコーダを持つ特徴表現に抽象化される。
公開データセットの実験では、KAPLANが3D形状の完成のために最先端のパフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2020-07-31T21:56:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。