論文の概要: Multimodal Point Cloud Semantic Segmentation With Virtual Point Enhancement
- arxiv url: http://arxiv.org/abs/2504.01449v1
- Date: Wed, 02 Apr 2025 08:02:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:21:36.054653
- Title: Multimodal Point Cloud Semantic Segmentation With Virtual Point Enhancement
- Title(参考訳): 仮想点拡張によるマルチモーダルポイントクラウドセマンティックセマンティックセグメンテーション
- Authors: Zaipeng Duan, Xuzhong Hu, Pei An, Jie Ma,
- Abstract要約: LiDARベースの3Dポイントクラウド認識は、様々なアプリケーションで有用であることが証明されている。
空間と密度の変化は、複雑な物体の詳細を捉える上で大きな課題となる。
仮想ポイントエンハンスメントに基づくマルチモーダルポイントクラウドセマンティックセマンティックセマンティックス法を提案する。
- 参考スコア(独自算出の注目度): 10.188196569056332
- License:
- Abstract: LiDAR-based 3D point cloud recognition has been proven beneficial in various applications. However, the sparsity and varying density pose a significant challenge in capturing intricate details of objects, particularly for medium-range and small targets. Therefore, we propose a multi-modal point cloud semantic segmentation method based on Virtual Point Enhancement (VPE), which integrates virtual points generated from images to address these issues. These virtual points are dense but noisy, and directly incorporating them can increase computational burden and degrade performance. Therefore, we introduce a spatial difference-driven adaptive filtering module that selectively extracts valuable pseudo points from these virtual points based on density and distance, enhancing the density of medium-range targets. Subsequently, we propose a noise-robust sparse feature encoder that incorporates noise-robust feature extraction and fine-grained feature enhancement. Noise-robust feature extraction exploits the 2D image space to reduce the impact of noisy points, while fine-grained feature enhancement boosts sparse geometric features through inner-voxel neighborhood point aggregation and downsampled voxel aggregation. The results on the SemanticKITTI and nuScenes, two large-scale benchmark data sets, have validated effectiveness, significantly improving 2.89\% mIoU with the introduction of 7.7\% virtual points on nuScenes.
- Abstract(参考訳): LiDARベースの3Dポイントクラウド認識は、様々なアプリケーションで有用であることが証明されている。
しかし、空間と密度の変化は、特に中距離および小型のターゲットにおいて、複雑な物体の詳細を捉える上で大きな課題となる。
そこで本稿では,VPE(Virtual Point Enhancement)に基づくマルチモーダルポイントクラウドセマンティックセマンティックセマンティクス手法を提案する。
これらの仮想点は密度が高いがノイズがあり、直接組み込むと計算負担が増加し性能が低下する。
そこで,空間差分駆動適応フィルタモジュールを導入し,これらの仮想点から,密度と距離に基づいて擬似点を選択的に抽出し,中距離ターゲットの密度を高める。
続いて,ノイズロバスト特徴抽出ときめ細かな特徴強調を組み込んだノイズロバストスパース特徴エンコーダを提案する。
ノイズロスト特徴抽出は、2次元画像空間を利用してノイズ点の影響を低減し、きめ細かな特徴増強は内ボクセル近傍点の凝集と下サンプドボキセルの凝集によって疎幾何的特徴を増大させる。
SemanticKITTI と nuScenes の2つの大規模ベンチマークデータセットの結果の有効性が検証され、nuScenes 上の7.7\%仮想点の導入により2.89\% mIoU が大幅に改善された。
関連論文リスト
- PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - PIVOT-Net: Heterogeneous Point-Voxel-Tree-based Framework for Point
Cloud Compression [8.778300313732027]
異種クラウド圧縮(PCC)フレームワークを提案する。
私たちは、典型的なポイントクラウド表現 -- ポイントベース、ボクセルベース、ツリーベース表現 -- と関連するバックボーンを統一します。
本稿では,デコードのためのコンテキスト対応アップサンプリングと,機能集約のための拡張ボクセルトランスフォーマーによりフレームワークを増強する。
論文 参考訳(メタデータ) (2024-02-11T16:57:08Z) - VirtualPainting: Addressing Sparsity with Virtual Points and
Distance-Aware Data Augmentation for 3D Object Detection [3.5259183508202976]
本稿では,カメラ画像を用いた仮想LiDAR点の生成を含む革新的なアプローチを提案する。
また、画像ベースセグメンテーションネットワークから得られる意味ラベルを用いて、これらの仮想点を強化する。
このアプローチは、様々な3Dフレームワークと2Dセマンティックセグメンテーションメソッドにシームレスに統合できる汎用的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-12-26T18:03:05Z) - Focus for Free in Density-Based Counting [56.961229110268036]
利用可能なポイントアノテーションを再利用して、カウント性能を向上させる2つの方法を紹介します。
1つ目は、ポイントアノテーションを利用して、入力画像と密度画像の両方で隠蔽されたオブジェクトをシミュレートするカウント固有の拡張である。
第2の方法である前景蒸留は点アノテーションから前景マスクを生成し,黒色背景を持つ画像上で補助的ネットワークを訓練する。
論文 参考訳(メタデータ) (2023-06-08T11:54:37Z) - TransUPR: A Transformer-based Uncertain Point Refiner for LiDAR Point
Cloud Semantic Segmentation [6.587305905804226]
本稿ではトランスUPR(Transformer-based certain point refiner)を提案する。
我々のTransUPRは最先端のパフォーマンス、すなわちSemantic KITTIベンチマーク上の68.2%のIntersection over Union(mIoU)を達成する。
論文 参考訳(メタデータ) (2023-02-16T21:38:36Z) - PV-RCNN++: Semantical Point-Voxel Feature Interaction for 3D Object
Detection [22.6659359032306]
本稿では,PV-RCNN++と呼ばれる意味的特徴相互作用を用いた新しいオブジェクト検出ネットワークを提案する。
KITTIデータセットの実験によると、PV-RCNN++は81.60$%$, 40.18$%$, 68.21$%$ 3D mAP on Car, Pedestrian, Cyclistで達成され、最先端技術と同等またはそれ以上のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-08-29T08:14:00Z) - PUFA-GAN: A Frequency-Aware Generative Adversarial Network for 3D Point
Cloud Upsampling [56.463507980857216]
本稿では,点群アップサンプリングのための生成的対向ネットワークを提案する。
基底表面に均等に分布するアップサンプリングポイントを作成できるだけでなく、クリーンな高周波領域を効率的に生成することができる。
論文 参考訳(メタデータ) (2022-03-02T07:47:46Z) - SASA: Semantics-Augmented Set Abstraction for Point-based 3D Object
Detection [78.90102636266276]
SASA(Semantics-Augmented Set Abstraction)と呼ばれる新しい集合抽象化手法を提案する。
そこで本研究では, 推定点前景スコアに基づいて, より重要な前景点の維持を支援するセマンティックス誘導点サンプリングアルゴリズムを提案する。
実際には、SASAは、前景オブジェクトに関連する貴重な点を識別し、ポイントベースの3D検出のための特徴学習を改善するのに有効である。
論文 参考訳(メタデータ) (2022-01-06T08:54:47Z) - SPU-Net: Self-Supervised Point Cloud Upsampling by Coarse-to-Fine
Reconstruction with Self-Projection Optimization [52.20602782690776]
実際のスキャンされたスパースデータからトレーニング用の大規模なペアリングスパーススキャンポイントセットを得るのは高価で面倒です。
本研究では,SPU-Net と呼ばれる自己監視型点群アップサンプリングネットワークを提案する。
本研究では,合成データと実データの両方について様々な実験を行い,最先端の教師付き手法と同等の性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-08T14:14:09Z) - PointGroup: Dual-Set Point Grouping for 3D Instance Segmentation [111.7241018610573]
私たちは、インスタンスセグメンテーションのための新しいエンドツーエンドボトムアップアーキテクチャであるPointGroupを紹介します。
我々は2分岐ネットワークを設計し、ポイントの特徴を抽出し、セマンティックラベルとオフセットを予測し、各ポイントをそれぞれのインスタンスセントロイドに向けてシフトさせる。
クラスタリングコンポーネントは、元のおよびオフセットシフトされた点座標セットの両方を利用するために、その相補的な強度を利用する。
ScanNet v2 と S3DIS の2つの挑戦的データセットに対する広範な実験を行い、ScanNet v2 と S3DIS が最も高い性能を達成し、63.6% と 64.0% の2つを以前のベストが達成した54.9% と54.4% と比較した。
論文 参考訳(メタデータ) (2020-04-03T16:26:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。