論文の概要: Superpoint Transformer for 3D Scene Instance Segmentation
- arxiv url: http://arxiv.org/abs/2211.15766v1
- Date: Mon, 28 Nov 2022 20:52:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 16:23:29.896060
- Title: Superpoint Transformer for 3D Scene Instance Segmentation
- Title(参考訳): 3次元シーンインスタンスセグメンテーションのためのスーパーポイントトランスフォーマー
- Authors: Jiahao Sun, Chunmei Qing, Junpeng Tan, Xiangmin Xu
- Abstract要約: 本稿では,SPFormer という名称の Superpoint Transformer に基づく,エンドツーエンドの3Dインスタンス分割手法を提案する。
ポイントクラウドからスーパーポイントに潜在的な機能をグループ化し、クエリベクタを通じてインスタンスを直接予測する。
これは、mAPの点でScanNetv2の隠れテストセットを4.3%上回り、高速な推論速度(フレーム当たり247ms)を同時に維持する。
- 参考スコア(独自算出の注目度): 7.07321040534471
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing methods realize 3D instance segmentation by extending those
models used for 3D object detection or 3D semantic segmentation. However, these
non-straightforward methods suffer from two drawbacks: 1) Imprecise bounding
boxes or unsatisfactory semantic predictions limit the performance of the
overall 3D instance segmentation framework. 2) Existing method requires a
time-consuming intermediate step of aggregation. To address these issues, this
paper proposes a novel end-to-end 3D instance segmentation method based on
Superpoint Transformer, named as SPFormer. It groups potential features from
point clouds into superpoints, and directly predicts instances through query
vectors without relying on the results of object detection or semantic
segmentation. The key step in this framework is a novel query decoder with
transformers that can capture the instance information through the superpoint
cross-attention mechanism and generate the superpoint masks of the instances.
Through bipartite matching based on superpoint masks, SPFormer can implement
the network training without the intermediate aggregation step, which
accelerates the network. Extensive experiments on ScanNetv2 and S3DIS
benchmarks verify that our method is concise yet efficient. Notably, SPFormer
exceeds compared state-of-the-art methods by 4.3% on ScanNetv2 hidden test set
in terms of mAP and keeps fast inference speed (247ms per frame)
simultaneously. Code is available at https://github.com/sunjiahao1999/SPFormer.
- Abstract(参考訳): 既存のほとんどのメソッドは、3Dオブジェクト検出や3Dセマンティックセマンティックセマンティックセマンティクスに使用されるモデルを拡張して3Dインスタンスセマンティクスを実現する。
しかし、これらの非ストレートフォワード法には2つの欠点がある。
1) 境界ボックスや不十分な意味予測は、3dインスタンスのセグメンテーションフレームワーク全体のパフォーマンスを制限する。
2) 既存の手法では, 集約に要する時間を要する。
そこで本研究では,SPFormer という名称の Superpoint Transformer に基づく,エンドツーエンドの3Dインスタンスセグメンテーション手法を提案する。
ポイントクラウドから潜在的な機能をスーパーポイントにグループ化し、オブジェクト検出やセマンティクスセグメンテーションの結果に頼ることなく、クエリベクトルを通じてインスタンスを直接予測する。
このフレームワークの重要なステップは、スーパーポイントのクロスアテンション機構を通じてインスタンス情報をキャプチャし、インスタンスのスーパーポイントマスクを生成することができるトランスフォーマーを備えた新しいクエリデコーダである。
スーパーポイントマスクに基づく2部マッチングにより、spformerは中間集約ステップなしでネットワークトレーニングを実行でき、ネットワークを高速化できる。
ScanNetv2 と S3DIS ベンチマークの広範囲な実験により,提案手法は簡潔で効率的であることが確認された。
特にSPFormerは、mAPの点でScanNetv2の隠れテストセットを4.3%上回り、高速な推論速度(247ms/フレーム)を同時に維持する。
コードはhttps://github.com/sunjiahao 1999/SPFormerで入手できる。
関連論文リスト
- MSTA3D: Multi-scale Twin-attention for 3D Instance Segmentation [7.400926717561454]
MSTA3Dはスーパーポイントベースの3Dインスタンスセグメンテーションのための新しいフレームワークである。
マルチスケールの特徴表現を利用し、それらを効果的にキャプチャするためのツインアテンション機構を導入している。
我々の手法は最先端の3Dインスタンスセグメンテーション手法を超越している。
論文 参考訳(メタデータ) (2024-11-04T04:14:39Z) - SegPoint: Segment Any Point Cloud via Large Language Model [62.69797122055389]
我々は,多種多様なタスクにまたがるポイントワイドセグメンテーションマスクを生成するSegPointと呼ばれるモデルを提案する。
SegPointは、単一のフレームワーク内でさまざまなセグメンテーションタスクに対処する最初のモデルである。
論文 参考訳(メタデータ) (2024-07-18T17:58:03Z) - SPGroup3D: Superpoint Grouping Network for Indoor 3D Object Detection [23.208654655032955]
屋内シーンにおける現在の3Dオブジェクト検出手法は,主に投票・グループ化戦略に従って提案を行う。
屋内アンカーフリーワンステージ3次元物体検出のための新しいスーパーポイントグループネットワークを提案する。
実験により,ScanNet V2, SUN RGB-D, S3DISデータセット上での最先端性能を実証した。
論文 参考訳(メタデータ) (2023-12-21T08:08:02Z) - SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。
我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。
ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-12-17T09:05:47Z) - PSGformer: Enhancing 3D Point Cloud Instance Segmentation via Precise
Semantic Guidance [11.097083846498581]
PSGformerは、新しい3Dインスタンスセグメンテーションネットワークである。
3Dインスタンスセグメンテーションのパフォーマンスを高めるために、2つの重要な進歩が組み込まれている。
これは、mAPの点でScanNetv2の隠れテストセットで比較した最先端のメソッドを2.2%上回る。
論文 参考訳(メタデータ) (2023-07-15T04:45:37Z) - ISBNet: a 3D Point Cloud Instance Segmentation Network with
Instance-aware Sampling and Box-aware Dynamic Convolution [14.88505076974645]
ISBNetは、インスタンスをカーネルとして表現し、動的畳み込みを通じてインスタンスマスクをデコードする新しい方法である。
我々は,ScanNetV2 (55.9), S3DIS (60.8), S3LS3D (49.2) にAPの条件で新たな最先端結果を設定し,ScanNetV2のシーンあたり237msの高速推論時間を保持する。
論文 参考訳(メタデータ) (2023-03-01T06:06:28Z) - 3D-QueryIS: A Query-based Framework for 3D Instance Segmentation [74.6998931386331]
従来の3Dインスタンスセグメンテーションの方法は、しばしばタスク間の依存関係と堅牢性の欠如の傾向を維持する。
本稿では,3D-QueryISと呼ばれる新しい問合せ方式を提案する。
私たちの3D-QueryISは、タスク間の依存関係による累積エラーから解放されています。
論文 参考訳(メタデータ) (2022-11-17T07:04:53Z) - Mask3D: Mask Transformer for 3D Semantic Instance Segmentation [89.41640045953378]
一般的なTransformerビルディングブロックを利用して、3Dポイントクラウドからインスタンスマスクを直接予測できることが示されています。
Transformerデコーダを使用して、インスタンスクエリは、複数のスケールでクラウド機能をポイントする反復的な参加者によって学習される。
Mask3Dは、新しい最先端ScanNetテスト(+6.2 mAP)、S3DIS 6-fold(+10.1 mAP)、LS3D(+11.2 mAP)、ScanNet200テスト(+12.4 mAP)を設定する。
論文 参考訳(メタデータ) (2022-10-06T17:55:09Z) - PointInst3D: Segmenting 3D Instances by Points [136.7261709896713]
本稿では,ポイント単位の予測方式で機能する,完全畳み込み型3Dポイントクラウドインスタンスセグメンテーション手法を提案する。
その成功の鍵は、各サンプルポイントに適切なターゲットを割り当てることにある。
提案手法はScanNetとS3DISのベンチマークで有望な結果が得られる。
論文 参考訳(メタデータ) (2022-04-25T02:41:46Z) - Instance Segmentation in 3D Scenes using Semantic Superpoint Tree
Networks [64.27814530457042]
本稿では,シーンポイントからオブジェクトインスタンスを提案するセマンティックスーパーポイントツリーネットワーク(SSTNet)のエンドツーエンドソリューションを提案する。
SSTNetのキーは中間的セマンティックなスーパーポイントツリー(SST)であり、スーパーポイントの学習されたセマンティックな特徴に基づいて構築されている。
SSTNetはScanNet(V2)のリーダーボードで上位にランクされ、第2のベストメソッドよりもmAPが2%高い。
論文 参考訳(メタデータ) (2021-08-17T07:25:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。