論文の概要: ZeroPS: High-quality Cross-modal Knowledge Transfer for Zero-Shot 3D Part Segmentation
- arxiv url: http://arxiv.org/abs/2311.14262v4
- Date: Fri, 21 Feb 2025 06:54:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 17:07:12.493113
- Title: ZeroPS: High-quality Cross-modal Knowledge Transfer for Zero-Shot 3D Part Segmentation
- Title(参考訳): ZeroPS: ゼロショット3次元部分分割のための高品質なクロスモーダル知識伝達
- Authors: Yuheng Xue, Nenglun Chen, Jun Liu, Wenyun Sun,
- Abstract要約: 本研究では,2次元事前学習基礎モデルから3次元オブジェクトポイントクラウドへの高品質な知識伝達を実現する新しいパイプラインZeroPSを提案する。
ZeroPSでは,1)コビュー領域とSAMのプロンプト機構を活用することで2Dから3Dへのリフティング,2)2D-3DビュープロジェクションとGLIPのプロンプト機構を活用することで1Dクラスを3D部分に関連付ける,3)マルチビュー観察を活用することで予測性能を向上させる,といった関係が示された。
- 参考スコア(独自算出の注目度): 7.880327314210407
- License:
- Abstract: Zero-shot 3D part segmentation is a challenging and fundamental task. In this work, we propose a novel pipeline, ZeroPS, which achieves high-quality knowledge transfer from 2D pretrained foundation models (FMs), SAM and GLIP, to 3D object point clouds. We aim to explore the natural relationship between multi-view correspondence and the FMs' prompt mechanism and build bridges on it. In ZeroPS, the relationship manifests as follows: 1) lifting 2D to 3D by leveraging co-viewed regions and SAM's prompt mechanism, 2) relating 1D classes to 3D parts by leveraging 2D-3D view projection and GLIP's prompt mechanism, and 3) enhancing prediction performance by leveraging multi-view observations. Extensive evaluations on the PartNetE and AKBSeg benchmarks demonstrate that ZeroPS significantly outperforms the SOTA method across zero-shot unlabeled and instance segmentation tasks. ZeroPS does not require additional training or fine-tuning for the FMs. ZeroPS applies to both simulated and real-world data. It is hardly affected by domain shift. The project page is available at https://luis2088.github.io/ZeroPS_page.
- Abstract(参考訳): ゼロショットの3D部分のセグメンテーションは困難で基本的なタスクだ。
本研究では,2次元事前学習基礎モデル(FM,SAM,GLIP)から3次元オブジェクトポイントクラウドへの高品質な知識伝達を実現する新しいパイプラインZeroPSを提案する。
我々は,多視点対応とFMのプロンプト機構の自然な関係を探究し,その上に橋を架けることを目的とする。
ZeroPSでは、この関係は次のように示される。
1)コビュー領域とSAMのプロンプト機構を活用して2Dから3Dへ持ち上げる。
2D-3DビュープロジェクションとGLIPのプロンプト機構を活用して、1Dクラスを3D部分に関連付けること。
3)多視点観測による予測性能の向上。
PartNetE と AKBSeg のベンチマークでは、ZeroPS はゼロショットやインスタンスのセグメンテーションタスクで SOTA メソッドを著しく上回っている。
ZeroPSはFMのための追加の訓練や微調整を必要としない。
ZeroPSはシミュレーションデータと実世界のデータの両方に適用できる。
ドメインシフトの影響はほとんどない。
プロジェクトページはhttps://luis2088.github.io/ZeroPS_pageで公開されている。
関連論文リスト
- PointSeg: A Training-Free Paradigm for 3D Scene Segmentation via Foundation Models [51.24979014650188]
我々は、市販の視覚基盤モデルを利用して、3Dシーン認識タスクに対処する学習自由パラダイムであるPointSegを提案する。
PointSegは正確な3Dプロンプトを取得してフレーム間で対応するピクセルを調整することで、任意の3Dシーンを分割することができる。
ScanNet、ScanNet++、KITTI-360データセット上の14.1$%、12.3$%、12.6$%のmAPは、最先端のトレーニングフリーモデルを大きく上回っている。
論文 参考訳(メタデータ) (2024-03-11T03:28:20Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - PointHPS: Cascaded 3D Human Pose and Shape Estimation from Point Clouds [99.60575439926963]
本稿では,実環境で捉えた点雲から正確な3次元HPSを実現するための基本的フレームワークであるPointHPSを提案する。
PointHPSは、カスケードアーキテクチャを通じてポイント機能を反復的に洗練する。
広範囲な実験により、ポイントHPSは強力な特徴抽出と処理方式を持ち、State-of-the-Art法より優れていることが示された。
論文 参考訳(メタデータ) (2023-08-28T11:10:14Z) - Towards Label-free Scene Understanding by Vision Foundation Models [87.13117617056004]
ネットワークがラベル付きデータなしで2Dおよび3D世界を理解できるようにするためのビジョン基盤モデルの可能性について検討する。
本稿では,CLIPとSAMの強度を利用して2次元ネットワークと3次元ネットワークを同時に監視するクロスモダリティ・ノイズ・スーパービジョン(CNS)手法を提案する。
我々の2Dネットワークと3Dネットワークは、ScanNet上で28.4%と33.5%のmIoUでラベルなしセマンティックセグメンテーションを実現し、それぞれ4.7%と7.9%を改善した。
論文 参考訳(メタデータ) (2023-06-06T17:57:49Z) - Prototype Adaption and Projection for Few- and Zero-shot 3D Point Cloud
Semantic Segmentation [30.18333233940194]
本研究は, 少数ショットとゼロショットの3Dポイントクラウドセマンティックセマンティックセグメンテーションの課題に対処する。
提案手法は,S3DISベンチマークとScanNetベンチマークの2方向1ショット設定により,最先端のアルゴリズムを約7.90%,14.82%上回る。
論文 参考訳(メタデータ) (2023-05-23T17:58:05Z) - LWSIS: LiDAR-guided Weakly Supervised Instance Segmentation for
Autonomous Driving [34.119642131912485]
より巧妙なフレームワークであるLiDAR誘導弱監視インスタンス(LWSIS)を提示する。
LWSISは市販の3Dデータ、すなわちポイントクラウドと3Dボックスを2Dイメージインスタンスセグメンテーションモデルをトレーニングするための自然な弱い監督手段として使用している。
我々のLWSISは、訓練中のマルチモーダルデータの補完情報を利用するだけでなく、密集した2Dマスクのコストを大幅に削減します。
論文 参考訳(メタデータ) (2022-12-07T08:08:01Z) - PartSLIP: Low-Shot Part Segmentation for 3D Point Clouds via Pretrained
Image-Language Models [56.324516906160234]
一般化可能な3D部分分割は重要だが、ビジョンとロボティクスでは難しい。
本稿では,事前学習した画像言語モデルGLIPを利用して,3次元点雲の低ショット部分分割法を提案する。
我々は2Dから3Dへの豊富な知識を、ポイントクラウドレンダリングにおけるGLIPに基づく部分検出と新しい2D-to-3Dラベルリフトアルゴリズムにより転送する。
論文 参考訳(メタデータ) (2022-12-03T06:59:01Z) - 3D-SiamRPN: An End-to-End Learning Method for Real-Time 3D Single Object
Tracking Using Raw Point Cloud [9.513194898261787]
3D-SiamRPN Network と呼ばれる3次元追跡手法を提案する。
KITTIデータセットによる実験結果から,本手法は成功と精度の両面で競合する性能を示した。
論文 参考訳(メタデータ) (2021-08-12T09:52:28Z) - LiDAR-based Panoptic Segmentation via Dynamic Shifting Network [56.71765153629892]
LiDARベースのパノプティカルセグメンテーションは、オブジェクトとシーンを統一的に解析することを目的としている。
本稿では,ポイントクラウド領域における効果的な単視分割フレームワークとして機能する動的シフトネットワーク(DS-Net)を提案する。
提案するDS-Netは,現在の最先端手法よりも優れた精度を実現する。
論文 参考訳(メタデータ) (2020-11-24T08:44:46Z) - Weakly Supervised Semantic Segmentation in 3D Graph-Structured Point
Clouds of Wild Scenes [36.07733308424772]
3Dセグメンテーションラベルの欠如は、効率的な点雲セグメンテーションの主な障害の1つである。
本稿では,2D のみを監督する点群における大規模セマンティックシーンセグメンテーションのための,新しいディープグラフ畳み込みネットワークフレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-26T23:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。