論文の概要: ZeroPS: High-quality Cross-modal Knowledge Transfer for Zero-Shot 3D
Part Segmentation
- arxiv url: http://arxiv.org/abs/2311.14262v1
- Date: Fri, 24 Nov 2023 03:19:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 16:00:33.183275
- Title: ZeroPS: High-quality Cross-modal Knowledge Transfer for Zero-Shot 3D
Part Segmentation
- Title(参考訳): zerops: ゼロショット3d部分セグメンテーションのための高品質クロスモーダル知識転送
- Authors: Yuheng Xue, Nenglun Chen, Jun Liu, Wenyun Sun
- Abstract要約: 我々はZeroPSと呼ばれるゼロショット3次元部分分割のための新しいパイプラインを設計する。
2次元事前訓練された基礎モデルから3次元点雲に知識を伝達する。
提案手法では、トレーニング、微調整、学習可能なパラメータは不要である。
- 参考スコア(独自算出の注目度): 8.608691471920546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, many 2D pretrained foundational models have demonstrated impressive
zero-shot prediction capabilities. In this work, we design a novel pipeline for
zero-shot 3D part segmentation, called ZeroPS. It high-quality transfers
knowledge from 2D pretrained foundational models to 3D point clouds. The main
idea of our approach is to explore the natural relationship between multi-view
correspondences and the prompt mechanism of foundational models and build
bridges on it. Our pipeline consists of two components: 1) a self-extension
component that extends 2D groups from a single viewpoint to spatial
global-level 3D groups; 2) a multi-modal labeling component that introduces a
two-dimensional checking mechanism to vote each 2D predicted bounding box to
the best matching 3D part, and a Class Non-highest Vote Penalty function to
refine the Vote Matrix. Additionally, a merging algorithm is included to merge
part-level 3D groups. Extensive evaluation of three zero-shot segmentation
tasks on PartnetE datasets, achieving state-of-the-art results with significant
improvements (+19.6%, +5.2% and +4.9%, respectively) over existing methods. Our
proposed approach does not need any training, fine-tuning or learnable
parameters. It is hardly affected by domain shift. The code will be released.
- Abstract(参考訳): 近年、多くの2次元事前訓練された基礎モデルが印象的なゼロショット予測能力を示している。
本研究ではZeroPSと呼ばれるゼロショット3次元部分分割のための新しいパイプラインを設計する。
2D事前訓練された基礎モデルから3Dポイントクラウドに知識を伝達する。
提案手法の主な考え方は,多視点対応と基礎モデルと構築ブリッジの迅速な機構の自然な関係を探ることである。
私たちのパイプラインは2つのコンポーネントで構成されています。
1) 単一視点から空間的グローバルレベル3Dグループまで2Dグループを拡張する自己拡張成分
2)各2d予測バウンダリングボックスを最良マッチング3d部に投票するための2次元チェック機構を導入するマルチモーダルラベリングコンポーネントと、投票行列を洗練するためのクラス非最高投票ペナルティ関数とを備える。
さらに、部分レベル3Dグループをマージするためにマージアルゴリズムが組み込まれている。
PartnetEデータセット上の3つのゼロショットセグメンテーションタスクの広範囲な評価により、既存の手法よりも大幅に改善された(+19.6%、+5.2%、+4.9%)。
提案手法では,トレーニングや微調整,学習可能なパラメータは不要である。
ドメインシフトの影響はほとんどない。
コードはリリースされます。
関連論文リスト
- PointSeg: A Training-Free Paradigm for 3D Scene Segmentation via
Foundation Models [53.45712917347696]
我々は、市販の視覚基盤モデルを利用して、3Dシーン認識タスクに対処する、新しいトレーニングフリーパラダイムであるPointSegを提案する。
PointSegは正確な3Dプロンプトを取得してフレーム間で対応するピクセルを調整することで、任意の3Dシーンを分割することができる。
このアプローチは,ScanNet,ScanNet++,KITTI-360データセット上の13.4$%,11.3$%,12$%のmAPで最先端のスペシャリストモデルを大幅に上回る。
論文 参考訳(メタデータ) (2024-03-11T03:28:20Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Prototype Adaption and Projection for Few- and Zero-shot 3D Point Cloud
Semantic Segmentation [30.18333233940194]
本研究は, 少数ショットとゼロショットの3Dポイントクラウドセマンティックセマンティックセグメンテーションの課題に対処する。
提案手法は,S3DISベンチマークとScanNetベンチマークの2方向1ショット設定により,最先端のアルゴリズムを約7.90%,14.82%上回る。
論文 参考訳(メタデータ) (2023-05-23T17:58:05Z) - PartSLIP: Low-Shot Part Segmentation for 3D Point Clouds via Pretrained
Image-Language Models [56.324516906160234]
一般化可能な3D部分分割は重要だが、ビジョンとロボティクスでは難しい。
本稿では,事前学習した画像言語モデルGLIPを利用して,3次元点雲の低ショット部分分割法を提案する。
我々は2Dから3Dへの豊富な知識を、ポイントクラウドレンダリングにおけるGLIPに基づく部分検出と新しい2D-to-3Dラベルリフトアルゴリズムにより転送する。
論文 参考訳(メタデータ) (2022-12-03T06:59:01Z) - CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。
提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。
不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文 参考訳(メタデータ) (2022-10-09T13:38:48Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - Multi-Modality Task Cascade for 3D Object Detection [22.131228757850373]
多くの手法は2つのモデルを個別に訓練し、単純な特徴結合を用いて3Dセンサーデータを表現している。
本稿では,3次元ボックスの提案を利用して2次元セグメンテーション予測を改善する新しいマルチモードタスクカスケードネットワーク(MTC-RCNN)を提案する。
2段階の3次元モジュール間の2次元ネットワークを組み込むことで,2次元および3次元のタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-07-08T17:55:01Z) - Implicit Functions in Feature Space for 3D Shape Reconstruction and
Completion [53.885984328273686]
Implicit Feature Networks (IF-Nets) は連続的な出力を提供し、複数のトポロジを扱える。
IF-NetsはShapeNetにおける3次元オブジェクト再構成における先行作業よりも明らかに優れており、より正確な3次元人間の再構成が得られる。
論文 参考訳(メタデータ) (2020-03-03T11:14:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。