論文の概要: PartSAM: A Scalable Promptable Part Segmentation Model Trained on Native 3D Data
- arxiv url: http://arxiv.org/abs/2509.21965v1
- Date: Fri, 26 Sep 2025 06:52:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.246359
- Title: PartSAM: A Scalable Promptable Part Segmentation Model Trained on Native 3D Data
- Title(参考訳): PartSAM: ネイティブな3Dデータに基づいてトレーニングされたスケーラブルなプロンプタブルな部分分割モデル
- Authors: Zhe Zhu, Le Wan, Rui Xu, Yiheng Zhang, Honghua Chen, Zhiyang Dou, Cheng Lin, Yuan Liu, Mingqiang Wei,
- Abstract要約: 大規模3次元データに基づいてトレーニングされた最初のプロンプト可能なパートセグメンテーションモデルであるPartSAMを提案する。
PartSAMはエンコーダ・デコーダアーキテクチャを採用しており、三面体をベースとしたデュアルブランチ・エンコーダが空間的に構造化されたトークンを生成する。
大規模監視を実現するために,500万以上の3次元形状部品対をキュレートしたループ型アノテーションパイプラインを導入する。
- 参考スコア(独自算出の注目度): 47.60227259482637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Segmenting 3D objects into parts is a long-standing challenge in computer vision. To overcome taxonomy constraints and generalize to unseen 3D objects, recent works turn to open-world part segmentation. These approaches typically transfer supervision from 2D foundation models, such as SAM, by lifting multi-view masks into 3D. However, this indirect paradigm fails to capture intrinsic geometry, leading to surface-only understanding, uncontrolled decomposition, and limited generalization. We present PartSAM, the first promptable part segmentation model trained natively on large-scale 3D data. Following the design philosophy of SAM, PartSAM employs an encoder-decoder architecture in which a triplane-based dual-branch encoder produces spatially structured tokens for scalable part-aware representation learning. To enable large-scale supervision, we further introduce a model-in-the-loop annotation pipeline that curates over five million 3D shape-part pairs from online assets, providing diverse and fine-grained labels. This combination of scalable architecture and diverse 3D data yields emergent open-world capabilities: with a single prompt, PartSAM achieves highly accurate part identification, and in a Segment-Every-Part mode, it automatically decomposes shapes into both surface and internal structures. Extensive experiments show that PartSAM outperforms state-of-the-art methods by large margins across multiple benchmarks, marking a decisive step toward foundation models for 3D part understanding. Our code and model will be released soon.
- Abstract(参考訳): 3Dオブジェクトを部品に分割することは、コンピュータビジョンにおける長年の課題である。
分類の制約を克服し、目に見えない3Dオブジェクトに一般化するために、最近の研究は、オープンワールドの部分セグメンテーションに転換している。
これらのアプローチは通常、多視点マスクを3Dに持ち上げることによってSAMのような2D基礎モデルから監督を移す。
しかし、この間接的パラダイムは固有の幾何学を捉えず、表面のみの理解、制御不能な分解、限定的な一般化をもたらす。
大規模3次元データに基づいてネイティブに訓練された最初のプロンプト可能なパートセグメンテーションモデルであるPartSAMを提案する。
SAMの設計哲学に従い、PartSAMはエンコーダ・デコーダアーキテクチャを採用し、三面体をベースとしたデュアルブランチエンコーダは、スケーラブルな部分認識表現学習のための空間的に構造化されたトークンを生成する。
大規模な監視を可能にするため,オンライン資産から500万以上の3次元形状部品ペアをキュレートし,多様かつきめ細かなラベルを提供する,ループ型モデル・イン・ザ・ループ・アノテーション・パイプラインも導入する。
スケーラブルなアーキテクチャと多様な3Dデータの組み合わせは、ひとつのプロンプトで高精度な部分識別を実現し、Segment-Every-Partモードでは、形状を表面構造と内部構造の両方に自動的に分解する。
大規模な実験により、PartSAMは複数のベンチマークで最先端の手法よりも高い性能を示し、3D部分理解のための基礎モデルに向けた決定的な一歩となった。
コードとモデルはまもなくリリースされます。
関連論文リスト
- P3-SAM: Native 3D Part Segmentation [29.513191657051575]
そこで本研究では,P$3$-SAMと呼ばれる,ネイティブな3Dポイントプロンプト可能な部分分割モデルを提案する。
SAMにインスパイアされたP$3$-SAMは、特徴抽出器、複数のセグメンテーションヘッド、IoU予測器から構成される。
私たちのモデルは、合理的なセグメンテーションラベルを持つ約370万のモデルを含む、新たに構築されたデータセットでトレーニングされています。
論文 参考訳(メタデータ) (2025-09-08T15:12:17Z) - GeoSAM2: Unleashing the Power of SAM2 for 3D Part Segmentation [81.0871900167463]
GeoSAM2は3次元部分分割のためのプロンプト制御可能なフレームワークである。
テクスチャのないオブジェクトが与えられた場合、事前に定義された視点から正規写像とポイントマップを描画する。
部品の選択をガイドするシンプルな2Dプロンプト(クリックやボックス)を受け入れます。
予測されたマスクはオブジェクトにバックプロジェクションされ、ビューに集約される。
論文 参考訳(メタデータ) (2025-08-19T17:58:51Z) - 3D Part Segmentation via Geometric Aggregation of 2D Visual Features [57.20161517451834]
監督された3D部分分割モデルは、固定されたオブジェクトと部品のセットに合わせて調整されており、それらの転送可能性は、オープンセットの現実世界のシナリオに制限される。
近年、視覚言語モデル(VLM)を多視点レンダリングとテキストプロンプトを用いてオブジェクト部品の識別に活用する研究が進められている。
これらの制約に対処するために,視覚概念から抽出した意味論と3次元幾何学をブレンドし,対象部品を効果的に同定するCOPSを提案する。
論文 参考訳(メタデータ) (2024-12-05T15:27:58Z) - Point-SAM: Promptable 3D Segmentation Model for Point Clouds [25.98791840584803]
本稿では,ポイントクラウドに着目した3Dプロンプト可能なセグメンテーションモデルであるPoint-SAMを提案する。
我々は、SAMを3Dドメインに拡張する、ポイントクラウドに適した効率的なトランスフォーマーベースのアーキテクチャを採用している。
次に、データエンジンを導入し、2D SAMから大規模に部分レベルおよびオブジェクトレベルの擬似ラベルを生成することにより、2D SAMから豊富な知識を抽出する。
論文 参考訳(メタデータ) (2024-06-25T17:28:03Z) - Part123: Part-aware 3D Reconstruction from a Single-view Image [54.589723979757515]
Part123は、一視点画像から部分認識された3D再構成のための新しいフレームワークである。
ニューラルレンダリングフレームワークにコントラスト学習を導入し、部分認識機能空間を学習する。
クラスタリングに基づくアルゴリズムも開発され、再構成されたモデルから3次元部分分割結果を自動的に導出する。
論文 参考訳(メタデータ) (2024-05-27T07:10:21Z) - SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。
我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。
ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-12-17T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。