論文の概要: Depth-Aware Range Image-Based Model for Point Cloud Segmentation
- arxiv url: http://arxiv.org/abs/2503.14955v1
- Date: Wed, 19 Mar 2025 07:46:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:23:40.285563
- Title: Depth-Aware Range Image-Based Model for Point Cloud Segmentation
- Title(参考訳): 点群セグメンテーションのための奥行き認識範囲画像ベースモデル
- Authors: Bike Chen, Antti Tikanmäki, Juha Röning,
- Abstract要約: PCSは、ポイントを異なる意味のあるグループに分けることを目的としている。
Deeper-Aware Module (DAM) と Fast FMVNet V3 が提案されている。
DAMは、チャネル間の相互依存性を明示的にモデル化することにより、レンジ画像の順序された深さ情報を知覚する。
- 参考スコア(独自算出の注目度): 3.8056056756169316
- License:
- Abstract: Point cloud segmentation (PCS) aims to separate points into different and meaningful groups. The task plays an important role in robotics because PCS enables robots to understand their physical environments directly. To process sparse and large-scale outdoor point clouds in real time, range image-based models are commonly adopted. However, in a range image, the lack of explicit depth information inevitably causes some separate objects in 3D space to touch each other, bringing difficulty for the range image-based models in correctly segmenting the objects. Moreover, previous PCS models are usually derived from the existing color image-based models and unable to make full use of the implicit but ordered depth information inherent in the range image, thereby achieving inferior performance. In this paper, we propose Depth-Aware Module (DAM) and Fast FMVNet V3. DAM perceives the ordered depth information in the range image by explicitly modelling the interdependence among channels. Fast FMVNet V3 incorporates DAM by integrating it into the last block in each architecture stage. Extensive experiments conducted on SemanticKITTI, nuScenes, and SemanticPOSS demonstrate that DAM brings a significant improvement for Fast FMVNet V3 with negligible computational cost.
- Abstract(参考訳): ポイントクラウドセグメンテーション(PCS)は、ポイントを異なる意味のあるグループに分割することを目的としている。
PCSはロボットが自身の物理的環境を直接理解できるようにするため、ロボット工学においてこのタスクは重要な役割を果たす。
スパースおよび大規模屋外点雲をリアルタイムに処理するために、レンジ画像ベースモデルが一般的である。
しかし、レンジ画像において、明示的な深度情報の欠如は、必然的に3次元空間内のいくつかの別々のオブジェクトが互いに接触することを引き起こし、レンジ画像ベースのモデルがオブジェクトを正しくセグメント化することを困難にしている。
さらに、従来のPCSモデルは、通常既存のカラー画像ベースモデルから派生しており、レンジ画像固有の暗黙的だが順序づけられた深度情報をフル活用することができず、性能が劣る。
本稿では,Depth-Aware Module (DAM)とFast FMVNet V3を提案する。
DAMは、チャネル間の相互依存性を明示的にモデル化することにより、レンジ画像の順序された深さ情報を知覚する。
Fast FMVNet V3はDAMをアーキテクチャの各段階で最後のブロックに統合する。
SemanticKITTI、nuScenes、SemanticPOSSで実施された大規模な実験は、DAMが無視できる計算コストでFast FMVNet V3に大幅な改善をもたらすことを示した。
関連論文リスト
- Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - Filling Missing Values Matters for Range Image-Based Point Cloud Segmentation [12.62718910894575]
ポイントクラウドセグメンテーション(PCS)は、ロボットの知覚とナビゲーションタスクにおいて重要な役割を果たす。
大規模屋外点雲を効率的に理解するために、その範囲画像表現が一般的である。
しかし、範囲画像の望ましくない欠落値は、物体の形状やパターンを損なう。
この問題は、オブジェクトからコヒーレントで完全な幾何学的情報を学ぶ際に、モデルにとって困難を生じさせる。
論文 参考訳(メタデータ) (2024-05-16T15:13:42Z) - PointeNet: A Lightweight Framework for Effective and Efficient Point
Cloud Analysis [28.54939134635978]
PointeNetは、ポイントクラウド分析に特化したネットワークである。
本手法は,分類/分割ヘッドとシームレスに統合したり,市販の3Dオブジェクト検出ネットワークに埋め込んだりすることで,柔軟性を示す。
ModelNet40、ScanObjectNN、ShapeNet KITTI、およびシーンレベルのデータセットKITTIを含むオブジェクトレベルのデータセットの実験は、ポイントクラウド分析における最先端メソッドよりもPointeNetの方が優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-12-20T03:34:48Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - SCA-PVNet: Self-and-Cross Attention Based Aggregation of Point Cloud and
Multi-View for 3D Object Retrieval [8.74845857766369]
大規模データセットを用いた多モード3Dオブジェクト検索はめったに行われない。
本稿では,3次元オブジェクト検索のための点群と多視点画像の自己・横断的アグリゲーションを提案する。
論文 参考訳(メタデータ) (2023-07-20T05:46:32Z) - Object-level 3D Semantic Mapping using a Network of Smart Edge Sensors [25.393382192511716]
我々は,分散エッジセンサのネットワークとオブジェクトレベルの情報からなる多視点3次元意味マッピングシステムを拡張した。
提案手法は,数cm以内でのポーズ推定と,実験室環境におけるセンサネットワークを用いた実環境実験により,Behaveデータセットを用いて評価した。
論文 参考訳(メタデータ) (2022-11-21T11:13:08Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - SimIPU: Simple 2D Image and 3D Point Cloud Unsupervised Pre-Training for
Spatial-Aware Visual Representations [85.38562724999898]
我々はSimIPUと呼ばれる2Dイメージと3Dポイントクラウドの教師なし事前学習戦略を提案する。
具体的には、モーダル内空間認識モジュールとモーダル間特徴相互作用モジュールからなるマルチモーダルコントラスト学習フレームワークを開発する。
我々の知る限りでは、屋外マルチモーダルデータセットに対する対照的な学習事前学習戦略を探求する最初の研究である。
論文 参考訳(メタデータ) (2021-12-09T03:27:00Z) - Facial Depth and Normal Estimation using Single Dual-Pixel Camera [81.02680586859105]
DP指向のDepth/Normalネットワークを導入し,3次元顔形状を再構成する。
これは、メートル法スケールでの深度マップと表面正規を含む、対応する地上3次元モデルを含んでいる。
近年のDPベース深度/正規推定法で最先端の性能を実現している。
論文 参考訳(メタデータ) (2021-11-25T05:59:27Z) - Aug3D-RPN: Improving Monocular 3D Object Detection by Synthetic Images
with Virtual Depth [64.29043589521308]
仮想深度で画像を合成することでトレーニングデータを増強するレンダリングモジュールを提案する。
レンダリングモジュールは、RGB画像と対応するスパース深度画像とを入力として、さまざまなフォトリアリスティック合成画像を出力する。
さらに,深度推定タスクを通じて共同で最適化することで,検出モデルを改善する補助モジュールを導入する。
論文 参考訳(メタデータ) (2021-07-28T11:00:47Z) - View Invariant Human Body Detection and Pose Estimation from Multiple
Depth Sensors [0.7080990243618376]
本稿では,複数地点のクラウドソースを用いて,エンドツーエンドの多対人3Dポーズ推定ネットワークであるPoint R-CNNを提案する。
我々は、個別のカメラ故障、様々なターゲットの外観、複雑な散らかったシーンなど、現実の課題をシミュレートする広範囲な実験を行った。
一方、私たちのエンドツーエンドネットワークは、カスケードされた最先端モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2020-05-08T19:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。