論文の概要: Dynamic Clustering Transformer Network for Point Cloud Segmentation
- arxiv url: http://arxiv.org/abs/2306.08073v1
- Date: Tue, 30 May 2023 01:11:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-18 12:10:35.165968
- Title: Dynamic Clustering Transformer Network for Point Cloud Segmentation
- Title(参考訳): ポイントクラウドセグメンテーションのための動的クラスタリングトランスフォーマーネットワーク
- Authors: Dening Lu, Jun Zhou, Kyle Yilin Gao, Dilong Li, Jing Du, Linlin Xu,
Jonathan Li
- Abstract要約: 動的クラスタリングトランスネットワーク(DCTNet)と呼ばれる新しい3Dポイントクラウド表現ネットワークを提案する。
エンコーダ-デコーダアーキテクチャがあり、ローカルとグローバルの両方の機能学習が可能である。
提案手法は,オブジェクトベースデータセット(ShapeNet),都市ナビゲーションデータセット(Toronto-3D),マルチスペクトルLiDARデータセットを用いて評価した。
- 参考スコア(独自算出の注目度): 23.149220817575195
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Point cloud segmentation is one of the most important tasks in computer
vision with widespread scientific, industrial, and commercial applications. The
research thereof has resulted in many breakthroughs in 3D object and scene
understanding. Previous methods typically utilized hierarchical architectures
for feature representation. However, the commonly used sampling and grouping
methods in hierarchical networks are only based on point-wise three-dimensional
coordinates, ignoring local semantic homogeneity of point clusters.
Additionally, the prevalent Farthest Point Sampling (FPS) method is often a
computational bottleneck. To address these issues, we propose a novel 3D point
cloud representation network, called Dynamic Clustering Transformer Network
(DCTNet). It has an encoder-decoder architecture, allowing for both local and
global feature learning. Specifically, we propose novel semantic feature-based
dynamic sampling and clustering methods in the encoder, which enables the model
to be aware of local semantic homogeneity for local feature aggregation.
Furthermore, in the decoder, we propose an efficient semantic feature-guided
upsampling method. Our method was evaluated on an object-based dataset
(ShapeNet), an urban navigation dataset (Toronto-3D), and a multispectral LiDAR
dataset, verifying the performance of DCTNet across a wide variety of practical
engineering applications. The inference speed of DCTNet is 3.8-16.8$\times$
faster than existing State-of-the-Art (SOTA) models on the ShapeNet dataset,
while achieving an instance-wise mIoU of $86.6\%$, the current top score. Our
method similarly outperforms previous methods on the other datasets, verifying
it as the new State-of-the-Art in point cloud segmentation.
- Abstract(参考訳): ポイントクラウドセグメンテーションは、広く科学的、工業的、商業的な用途でコンピュータビジョンにおいて最も重要なタスクの1つである。
この研究は、3dオブジェクトとシーン理解に多くのブレークスルーをもたらした。
従来は階層型アーキテクチャを特徴表現に利用していた。
しかし、階層型ネットワークにおけるサンプリングとグループ化の手法は、ポイントクラスタの局所的意味的均一性を無視した、ポイントワイドな3次元座標のみに基づいている。
さらに、FPS(Farthest Point Sampling)法はしばしば計算ボトルネックとなる。
そこで本稿では,DCTNet(Dynamic Clustering Transformer Network)と呼ばれる新しい3Dポイントクラウド表現ネットワークを提案する。
エンコーダ-デコーダアーキテクチャがあり、ローカルとグローバルの両方の機能学習が可能である。
具体的には,局所的特徴集合に対する局所的意味的同質性をモデルが認識できるように,エンコーダにおける新しい意味的特徴に基づく動的サンプリングおよびクラスタリング手法を提案する。
さらに,デコーダでは,効率的な特徴ガイダンスアップサンプリング手法を提案する。
提案手法は、オブジェクトベースデータセット(ShapeNet)、都市ナビゲーションデータセット(Toronto-3D)、マルチスペクトルLiDARデータセットを用いて評価し、多種多様な実用工学的応用におけるDCTNetの性能を検証した。
DCTNetの推論速度は、ShapeNetデータセット上の既存のState-of-the-Art(SOTA)モデルよりも3.8-16.8$\times$速く、インスタンスワイドのmIoUは8.6\%である。
同様に,本手法は他のデータセットよりも優れており,ポイントクラウドセグメンテーションにおける新しいState-of-the-Artとして検証されている。
関連論文リスト
- PointeNet: A Lightweight Framework for Effective and Efficient Point
Cloud Analysis [28.54939134635978]
PointeNetは、ポイントクラウド分析に特化したネットワークである。
本手法は,分類/分割ヘッドとシームレスに統合したり,市販の3Dオブジェクト検出ネットワークに埋め込んだりすることで,柔軟性を示す。
ModelNet40、ScanObjectNN、ShapeNet KITTI、およびシーンレベルのデータセットKITTIを含むオブジェクトレベルのデータセットの実験は、ポイントクラウド分析における最先端メソッドよりもPointeNetの方が優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-12-20T03:34:48Z) - Clustering based Point Cloud Representation Learning for 3D Analysis [80.88995099442374]
本稿では,ポイントクラウド分析のためのクラスタリングに基づく教師付き学習手法を提案する。
現在のデファクトでシーンワイドなトレーニングパラダイムとは異なり、我々のアルゴリズムは点埋め込み空間上でクラス内のクラスタリングを行う。
我々のアルゴリズムは、有名なポイントクラウドセグメンテーションデータセットの顕著な改善を示している。
論文 参考訳(メタデータ) (2023-07-27T03:42:12Z) - ISBNet: a 3D Point Cloud Instance Segmentation Network with
Instance-aware Sampling and Box-aware Dynamic Convolution [14.88505076974645]
ISBNetは、インスタンスをカーネルとして表現し、動的畳み込みを通じてインスタンスマスクをデコードする新しい方法である。
我々は,ScanNetV2 (55.9), S3DIS (60.8), S3LS3D (49.2) にAPの条件で新たな最先端結果を設定し,ScanNetV2のシーンあたり237msの高速推論時間を保持する。
論文 参考訳(メタデータ) (2023-03-01T06:06:28Z) - SemAffiNet: Semantic-Affine Transformation for Point Cloud Segmentation [94.11915008006483]
ポイントクラウドセマンティックセグメンテーションのためのSemAffiNetを提案する。
我々はScanNetV2とNYUv2データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-05-26T17:00:23Z) - Voint Cloud: Multi-View Point Cloud Representation for 3D Understanding [80.04281842702294]
本稿では,複数の視点から抽出した特徴の集合として,各3次元点を表す多視点クラウド(Voint Cloud)の概念を紹介する。
この新しい3次元Vointクラウド表現は、3Dポイントクラウド表現のコンパクト性と、マルチビュー表現の自然なビュー認識性を組み合わせたものである。
理論的に確立された機能を持つVointニューラルネットワーク(VointNet)をデプロイし,Voint空間の表現を学習する。
論文 参考訳(メタデータ) (2021-11-30T13:08:19Z) - CpT: Convolutional Point Transformer for 3D Point Cloud Processing [10.389972581905]
CpT: Convolutional Point Transformer - 3Dポイントクラウドデータの非構造化の性質を扱うための新しいディープラーニングアーキテクチャ。
CpTは、既存の注目ベースのConvolutions Neural Networksと、以前の3Dポイントクラウド処理トランスフォーマーの改善である。
我々のモデルは、既存の最先端のアプローチと比較して、様々なポイントクラウド処理タスクの効果的なバックボーンとして機能する。
論文 参考訳(メタデータ) (2021-11-21T17:45:55Z) - LatticeNet: Fast Spatio-Temporal Point Cloud Segmentation Using
Permutohedral Lattices [27.048998326468688]
深層畳み込みニューラルネットワーク(CNN)は、画像のセグメンテーションに際し、優れた性能を示している。
本稿では,3次元セマンティックセグメンテーションの新たなアプローチであるLatticeNetを提案する。
本稿では,本手法が最先端性能を実現する複数のデータセット上での3次元セグメント化の結果について述べる。
論文 参考訳(メタデータ) (2021-08-09T10:17:27Z) - Learning point embedding for 3D data processing [2.12121796606941]
現在の点ベース法は本質的に空間関係処理ネットワークである。
PE-Netは高次元空間における点雲の表現を学習する。
実験によると、PE-Netは複数の挑戦的なデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-19T00:25:28Z) - Dynamic Convolution for 3D Point Cloud Instance Segmentation [146.7971476424351]
動的畳み込みに基づく3次元点雲からのインスタンスセグメンテーション手法を提案する。
我々は、同じ意味圏と閉投票を持つ等質点を幾何学的遠近点に対して収集する。
提案手法は提案不要であり、代わりに各インスタンスの空間的および意味的特性に適応する畳み込みプロセスを利用する。
論文 参考訳(メタデータ) (2021-07-18T09:05:16Z) - Learning Semantic Segmentation of Large-Scale Point Clouds with Random
Sampling [52.464516118826765]
我々はRandLA-Netを紹介した。RandLA-Netは、大規模ポイントクラウドのポイントごとの意味を推論する、効率的で軽量なニューラルネットワークアーキテクチャである。
我々のアプローチの鍵は、より複雑な点選択アプローチではなく、ランダムな点サンプリングを使用することである。
我々のRandLA-Netは、既存のアプローチよりも最大200倍高速な1回のパスで100万ポイントを処理できます。
論文 参考訳(メタデータ) (2021-07-06T05:08:34Z) - Local Grid Rendering Networks for 3D Object Detection in Point Clouds [98.02655863113154]
CNNは強力だが、全点の雲を高密度の3Dグリッドに酸化した後、点データに直接畳み込みを適用するのは計算コストがかかる。
入力点のサブセットの小さな近傍を低解像度の3Dグリッドに独立してレンダリングする,新しい,原理化されたローカルグリッドレンダリング(LGR)演算を提案する。
ScanNetとSUN RGB-Dデータセットを用いた3次元オブジェクト検出のためのLGR-Netを検証する。
論文 参考訳(メタデータ) (2020-07-04T13:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。