Fugu-MT 論文翻訳(概要): ZeroPS: High-quality Cross-modal Knowledge Transfer for Zero-Shot 3D Part Segmentation

論文の概要: ZeroPS: High-quality Cross-modal Knowledge Transfer for Zero-Shot 3D Part Segmentation

arxiv url: http://arxiv.org/abs/2311.14262v1
Date: Fri, 24 Nov 2023 03:19:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-27 16:00:33.183275
Title: ZeroPS: High-quality Cross-modal Knowledge Transfer for Zero-Shot 3D Part Segmentation
Title（参考訳）: zerops: ゼロショット3d部分セグメンテーションのための高品質クロスモーダル知識転送
Authors: Yuheng Xue, Nenglun Chen, Jun Liu, Wenyun Sun
Abstract要約: 我々はZeroPSと呼ばれるゼロショット3次元部分分割のための新しいパイプラインを設計する。 2次元事前訓練された基礎モデルから3次元点雲に知識を伝達する。提案手法では、トレーニング、微調整、学習可能なパラメータは不要である。
参考スコア（独自算出の注目度）: 8.608691471920546
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, many 2D pretrained foundational models have demonstrated impressive zero-shot prediction capabilities. In this work, we design a novel pipeline for zero-shot 3D part segmentation, called ZeroPS. It high-quality transfers knowledge from 2D pretrained foundational models to 3D point clouds. The main idea of our approach is to explore the natural relationship between multi-view correspondences and the prompt mechanism of foundational models and build bridges on it. Our pipeline consists of two components: 1) a self-extension component that extends 2D groups from a single viewpoint to spatial global-level 3D groups; 2) a multi-modal labeling component that introduces a two-dimensional checking mechanism to vote each 2D predicted bounding box to the best matching 3D part, and a Class Non-highest Vote Penalty function to refine the Vote Matrix. Additionally, a merging algorithm is included to merge part-level 3D groups. Extensive evaluation of three zero-shot segmentation tasks on PartnetE datasets, achieving state-of-the-art results with significant improvements (+19.6%, +5.2% and +4.9%, respectively) over existing methods. Our proposed approach does not need any training, fine-tuning or learnable parameters. It is hardly affected by domain shift. The code will be released.
Abstract（参考訳）: 近年、多くの2次元事前訓練された基礎モデルが印象的なゼロショット予測能力を示している。本研究ではZeroPSと呼ばれるゼロショット3次元部分分割のための新しいパイプラインを設計する。 2D事前訓練された基礎モデルから3Dポイントクラウドに知識を伝達する。提案手法の主な考え方は,多視点対応と基礎モデルと構築ブリッジの迅速な機構の自然な関係を探ることである。私たちのパイプラインは2つのコンポーネントで構成されています。 1) 単一視点から空間的グローバルレベル3Dグループまで2Dグループを拡張する自己拡張成分 2)各2d予測バウンダリングボックスを最良マッチング3d部に投票するための2次元チェック機構を導入するマルチモーダルラベリングコンポーネントと、投票行列を洗練するためのクラス非最高投票ペナルティ関数とを備える。さらに、部分レベル3Dグループをマージするためにマージアルゴリズムが組み込まれている。 PartnetEデータセット上の3つのゼロショットセグメンテーションタスクの広範囲な評価により、既存の手法よりも大幅に改善された(+19.6%、+5.2%、+4.9%)。提案手法では,トレーニングや微調整,学習可能なパラメータは不要である。ドメインシフトの影響はほとんどない。コードはリリースされます。

関連論文リスト

E3D-Bench: A Benchmark for End-to-End 3D Geometric Foundation Models [78.1674905950243]
3次元幾何学基礎モデル(GFM)の総合ベンチマークを初めて提示する。 GFMは、単一のフィードフォワードパスで密度の高い3D表現を直接予測し、スローまたは未使用のカメラパラメータを不要にする。我々は16の最先端GFMを評価し、タスクやドメイン間の長所と短所を明らかにした。すべてのコード、評価スクリプト、処理されたデータは公開され、3D空間インテリジェンスの研究が加速される。
論文参考訳（メタデータ） (2025-06-02T17:53:09Z)
PointSeg: A Training-Free Paradigm for 3D Scene Segmentation via Foundation Models [51.24979014650188]
我々は、市販の視覚基盤モデルを利用して、3Dシーン認識タスクに対処する学習自由パラダイムであるPointSegを提案する。 PointSegは正確な3Dプロンプトを取得してフレーム間で対応するピクセルを調整することで、任意の3Dシーンを分割することができる。 ScanNet、ScanNet++、KITTI-360データセット上の14.1$%、12.3$%、12.6$%のmAPは、最先端のトレーニングフリーモデルを大きく上回っている。
論文参考訳（メタデータ） (2024-03-11T03:28:20Z)
Leveraging Large-Scale Pretrained Vision Foundation Models for Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文参考訳（メタデータ） (2023-11-03T15:41:15Z)
PointHPS: Cascaded 3D Human Pose and Shape Estimation from Point Clouds [99.60575439926963]
本稿では,実環境で捉えた点雲から正確な3次元HPSを実現するための基本的フレームワークであるPointHPSを提案する。 PointHPSは、カスケードアーキテクチャを通じてポイント機能を反復的に洗練する。広範囲な実験により、ポイントHPSは強力な特徴抽出と処理方式を持ち、State-of-the-Art法より優れていることが示された。
論文参考訳（メタデータ） (2023-08-28T11:10:14Z)
Towards Label-free Scene Understanding by Vision Foundation Models [87.13117617056004]
ネットワークがラベル付きデータなしで2Dおよび3D世界を理解できるようにするためのビジョン基盤モデルの可能性について検討する。本稿では,CLIPとSAMの強度を利用して2次元ネットワークと3次元ネットワークを同時に監視するクロスモダリティ・ノイズ・スーパービジョン(CNS)手法を提案する。我々の2Dネットワークと3Dネットワークは、ScanNet上で28.4%と33.5%のmIoUでラベルなしセマンティックセグメンテーションを実現し、それぞれ4.7%と7.9%を改善した。
論文参考訳（メタデータ） (2023-06-06T17:57:49Z)
Prototype Adaption and Projection for Few- and Zero-shot 3D Point Cloud Semantic Segmentation [30.18333233940194]
本研究は, 少数ショットとゼロショットの3Dポイントクラウドセマンティックセマンティックセグメンテーションの課題に対処する。提案手法は,S3DISベンチマークとScanNetベンチマークの2方向1ショット設定により,最先端のアルゴリズムを約7.90%,14.82%上回る。
論文参考訳（メタデータ） (2023-05-23T17:58:05Z)
LWSIS: LiDAR-guided Weakly Supervised Instance Segmentation for Autonomous Driving [34.119642131912485]
より巧妙なフレームワークであるLiDAR誘導弱監視インスタンス(LWSIS)を提示する。 LWSISは市販の3Dデータ、すなわちポイントクラウドと3Dボックスを2Dイメージインスタンスセグメンテーションモデルをトレーニングするための自然な弱い監督手段として使用している。我々のLWSISは、訓練中のマルチモーダルデータの補完情報を利用するだけでなく、密集した2Dマスクのコストを大幅に削減します。
論文参考訳（メタデータ） (2022-12-07T08:08:01Z)
PartSLIP: Low-Shot Part Segmentation for 3D Point Clouds via Pretrained Image-Language Models [56.324516906160234]
一般化可能な3D部分分割は重要だが、ビジョンとロボティクスでは難しい。本稿では,事前学習した画像言語モデルGLIPを利用して,3次元点雲の低ショット部分分割法を提案する。我々は2Dから3Dへの豊富な知識を、ポイントクラウドレンダリングにおけるGLIPに基づく部分検出と新しい2D-to-3Dラベルリフトアルゴリズムにより転送する。
論文参考訳（メタデータ） (2022-12-03T06:59:01Z)
3D-SiamRPN: An End-to-End Learning Method for Real-Time 3D Single Object Tracking Using Raw Point Cloud [9.513194898261787]
3D-SiamRPN Network と呼ばれる3次元追跡手法を提案する。 KITTIデータセットによる実験結果から,本手法は成功と精度の両面で競合する性能を示した。
論文参考訳（メタデータ） (2021-08-12T09:52:28Z)
LiDAR-based Panoptic Segmentation via Dynamic Shifting Network [56.71765153629892]
LiDARベースのパノプティカルセグメンテーションは、オブジェクトとシーンを統一的に解析することを目的としている。本稿では,ポイントクラウド領域における効果的な単視分割フレームワークとして機能する動的シフトネットワーク(DS-Net)を提案する。提案するDS-Netは,現在の最先端手法よりも優れた精度を実現する。
論文参考訳（メタデータ） (2020-11-24T08:44:46Z)
Weakly Supervised Semantic Segmentation in 3D Graph-Structured Point Clouds of Wild Scenes [36.07733308424772]
3Dセグメンテーションラベルの欠如は、効率的な点雲セグメンテーションの主な障害の1つである。本稿では,2D のみを監督する点群における大規模セマンティックシーンセグメンテーションのための,新しいディープグラフ畳み込みネットワークフレームワークを提案する。
論文参考訳（メタデータ） (2020-04-26T23:02:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。