論文の概要: Prototype Adaption and Projection for Few- and Zero-shot 3D Point Cloud
Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2305.14335v1
- Date: Tue, 23 May 2023 17:58:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 13:26:54.179441
- Title: Prototype Adaption and Projection for Few- and Zero-shot 3D Point Cloud
Semantic Segmentation
- Title(参考訳): 最小およびゼロショット3d点クラウドセマンティクスセグメンテーションのためのプロトタイプ適応と投影
- Authors: Shuting He, Xudong Jiang, Wei Jiang, Henghui Ding
- Abstract要約: 本研究は, 少数ショットとゼロショットの3Dポイントクラウドセマンティックセマンティックセグメンテーションの課題に対処する。
提案手法は,S3DISベンチマークとScanNetベンチマークの2方向1ショット設定により,最先端のアルゴリズムを約7.90%,14.82%上回る。
- 参考スコア(独自算出の注目度): 30.18333233940194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we address the challenging task of few-shot and zero-shot 3D
point cloud semantic segmentation. The success of few-shot semantic
segmentation in 2D computer vision is mainly driven by the pre-training on
large-scale datasets like imagenet. The feature extractor pre-trained on
large-scale 2D datasets greatly helps the 2D few-shot learning. However, the
development of 3D deep learning is hindered by the limited volume and instance
modality of datasets due to the significant cost of 3D data collection and
annotation. This results in less representative features and large intra-class
feature variation for few-shot 3D point cloud segmentation. As a consequence,
directly extending existing popular prototypical methods of 2D few-shot
classification/segmentation into 3D point cloud segmentation won't work as well
as in 2D domain. To address this issue, we propose a Query-Guided Prototype
Adaption (QGPA) module to adapt the prototype from support point clouds feature
space to query point clouds feature space. With such prototype adaption, we
greatly alleviate the issue of large feature intra-class variation in point
cloud and significantly improve the performance of few-shot 3D segmentation.
Besides, to enhance the representation of prototypes, we introduce a
Self-Reconstruction (SR) module that enables prototype to reconstruct the
support mask as well as possible. Moreover, we further consider zero-shot 3D
point cloud semantic segmentation where there is no support sample. To this
end, we introduce category words as semantic information and propose a
semantic-visual projection model to bridge the semantic and visual spaces. Our
proposed method surpasses state-of-the-art algorithms by a considerable 7.90%
and 14.82% under the 2-way 1-shot setting on S3DIS and ScanNet benchmarks,
respectively. Code is available at https://github.com/heshuting555/PAP-FZS3D.
- Abstract(参考訳): 本研究は,小ショットとゼロショットの3Dポイントクラウドセマンティックセマンティックセグメンテーションの課題に対処する。
2Dコンピュータビジョンにおける少数ショットセマンティックセグメンテーションの成功は、主にImagenetのような大規模データセットの事前トレーニングによって引き起こされる。
大規模な2Dデータセットで事前訓練された特徴抽出器は、2Dの複数ショット学習に大いに役立ちます。
しかし、3次元深層学習の開発は、3次元データ収集とアノテーションの大幅なコストのため、データセットのボリュームとインスタンスのモダリティの制限によって妨げられている。
この結果、代表的な機能が少なくなり、3dポイントのクラウドセグメンテーションのためのクラス内特徴のばらつきが大きくなります。
結果として、既存の2Dスプリットショット分類/セグメンテーションのプロトタイプメソッドを直接3Dポイントクラウドセグメンテーションに拡張することは、2Dドメインほどうまくいきません。
この問題に対処するため,我々はQGPA(Query-Guided Prototype Adaption)モジュールを提案し,プロトタイプをサポートポイントクラウドの機能空間からクエリポイントクラウドの機能空間に適応させる。
このようなプロトタイプ適応により、ポイントクラウドにおける大きな機能内変動の問題を大幅に軽減し、少数ショット3Dセグメンテーションの性能を大幅に改善する。
また,プロトタイプの表現性を高めるために,プロトタイプがサポートマスクを可能な限り再構築できる自己再構築(sr)モジュールを導入する。
さらに,サポートサンプルが存在しないゼロショット3Dポイントクラウドセマンティックセマンティックセグメンテーションについても検討する。
この目的のために,カテゴリー単語を意味情報として導入し,意味空間と視覚空間を橋渡しする意味・視覚投影モデルを提案する。
提案手法は,S3DISベンチマークとScanNetベンチマークの2方向1ショット設定により,最先端のアルゴリズムを約7.90%,14.82%上回る。
コードはhttps://github.com/heshuting555/PAP-FZS3Dで入手できる。
関連論文リスト
- DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance
Fields [73.97131748433212]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - 2D-3D Interlaced Transformer for Point Cloud Segmentation with
Scene-Level Supervision [36.282611420496416]
本稿では,2つのエンコーダと1つのデコーダを備えた変圧器モデルを提案する。
デコーダは2D-3Dクロスアテンションを実装し、暗黙の2Dおよび3D特徴融合を実行する。
実験により、既存の弱教師付きポイントクラウドセグメンテーション法に対して好適に動作することが示された。
論文 参考訳(メタデータ) (2023-10-19T15:12:44Z) - Variational Relational Point Completion Network for Robust 3D
Classification [59.80993960827833]
可変点雲補完法は、局所的な詳細を欠くため、大域的な形状の骨格を生成する傾向がある。
本稿では2つの魅力的な特性を持つ変分フレームワークであるポイントコンプリートネットワーク(VRCNet)を提案する。
VRCNetは、現実世界のポイントクラウドスキャンにおいて、非常に一般化性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-04-18T17:03:20Z) - Few-Shot 3D Point Cloud Semantic Segmentation via Stratified
Class-Specific Attention Based Transformer Network [22.9434434107516]
数ショットのクラウドセマンティックセマンティックセグメンテーションのための新しい多層トランスフォーマーネットワークを開発した。
提案手法は,既存の数ショットの3Dポイントクラウドセグメンテーションモデルよりも15%少ない推論時間で,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-28T00:27:54Z) - PartSLIP: Low-Shot Part Segmentation for 3D Point Clouds via Pretrained
Image-Language Models [56.324516906160234]
一般化可能な3D部分分割は重要だが、ビジョンとロボティクスでは難しい。
本稿では,事前学習した画像言語モデルGLIPを利用して,3次元点雲の低ショット部分分割法を提案する。
我々は2Dから3Dへの豊富な知識を、ポイントクラウドレンダリングにおけるGLIPに基づく部分検出と新しい2D-to-3Dラベルリフトアルゴリズムにより転送する。
論文 参考訳(メタデータ) (2022-12-03T06:59:01Z) - Interactive Object Segmentation in 3D Point Clouds [27.88495480980352]
本稿では,ユーザが直接3Dポイントクラウドと対話する対話型3Dオブジェクトセグメンテーション手法を提案する。
私たちのモデルは、ターゲットドメインからのトレーニングデータを必要としない。
異なるデータ特性と異なるオブジェクトクラスを持つ他のいくつかのデータセットでうまく機能する。
論文 参考訳(メタデータ) (2022-04-14T18:31:59Z) - Voint Cloud: Multi-View Point Cloud Representation for 3D Understanding [80.04281842702294]
本稿では,複数の視点から抽出した特徴の集合として,各3次元点を表す多視点クラウド(Voint Cloud)の概念を紹介する。
この新しい3次元Vointクラウド表現は、3Dポイントクラウド表現のコンパクト性と、マルチビュー表現の自然なビュー認識性を組み合わせたものである。
理論的に確立された機能を持つVointニューラルネットワーク(VointNet)をデプロイし,Voint空間の表現を学習する。
論文 参考訳(メタデータ) (2021-11-30T13:08:19Z) - ParaNet: Deep Regular Representation for 3D Point Clouds [62.81379889095186]
ParaNetは、3Dポイントクラウドを表現するための新しいエンドツーエンドのディープラーニングフレームワークである。
不規則な3D点雲を通常の2Dカラー画像に変換する。
多視点投影とボキセル化に基づく従来の正規表現法とは異なり、提案した表現は微分可能で可逆である。
論文 参考訳(メタデータ) (2020-12-05T13:19:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。