論文の概要: Open-Vocabulary Semantic Part Segmentation of 3D Human
- arxiv url: http://arxiv.org/abs/2502.19782v1
- Date: Thu, 27 Feb 2025 05:47:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:57:39.599950
- Title: Open-Vocabulary Semantic Part Segmentation of 3D Human
- Title(参考訳): オープンボキャブラリ・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマン
- Authors: Keito Suzuki, Bang Du, Girish Krishnan, Kunyao Chen, Runfa Blark Li, Truong Nguyen,
- Abstract要約: 3次元人間を扱える最初のオープン語彙セグメンテーション法を提案する。
我々のフレームワークは、テキストのプロンプトに基づいて、人間のカテゴリを所望のきめ細かい部分に分類することができる。
本手法はメッシュ,点雲,3次元ガウススプラッティングなど,様々な3次元表現に直接適用することができる。
- 参考スコア(独自算出の注目度): 4.380538063753977
- License:
- Abstract: 3D part segmentation is still an open problem in the field of 3D vision and AR/VR. Due to limited 3D labeled data, traditional supervised segmentation methods fall short in generalizing to unseen shapes and categories. Recently, the advancement in vision-language models' zero-shot abilities has brought a surge in open-world 3D segmentation methods. While these methods show promising results for 3D scenes or objects, they do not generalize well to 3D humans. In this paper, we present the first open-vocabulary segmentation method capable of handling 3D human. Our framework can segment the human category into desired fine-grained parts based on the textual prompt. We design a simple segmentation pipeline, leveraging SAM to generate multi-view proposals in 2D and proposing a novel HumanCLIP model to create unified embeddings for visual and textual inputs. Compared with existing pre-trained CLIP models, the HumanCLIP model yields more accurate embeddings for human-centric contents. We also design a simple-yet-effective MaskFusion module, which classifies and fuses multi-view features into 3D semantic masks without complex voting and grouping mechanisms. The design of decoupling mask proposals and text input also significantly boosts the efficiency of per-prompt inference. Experimental results on various 3D human datasets show that our method outperforms current state-of-the-art open-vocabulary 3D segmentation methods by a large margin. In addition, we show that our method can be directly applied to various 3D representations including meshes, point clouds, and 3D Gaussian Splatting.
- Abstract(参考訳): 3D部分のセグメンテーションは、3DビジョンとAR/VRの分野ではまだ未解決の問題である。
3Dラベル付きデータに制限があるため、従来の教師付きセグメンテーション手法では、目に見えない形状やカテゴリに一般化が不足している。
近年、視覚言語モデルのゼロショット能力の進歩により、オープンワールドの3Dセグメンテーション手法が急増している。
これらの手法は3次元のシーンやオブジェクトに対して有望な結果を示すが、3次元の人間にはうまく一般化しない。
本稿では,3次元人間を扱える最初のオープン語彙セグメンテーション法を提案する。
我々のフレームワークは、テキストのプロンプトに基づいて、人間のカテゴリを所望のきめ細かい部分に分類することができる。
単純なセグメンテーションパイプラインを設計し、SAMを利用して2次元のマルチビュー提案を生成し、視覚とテキストの入力に統一的な埋め込みを生成する新しいHumanCLIPモデルを提案する。
既存のトレーニング済みCLIPモデルと比較して、HumanCLIPモデルは人間中心のコンテンツに対してより正確な埋め込みをもたらす。
また,複雑な投票機構やグループ化機構を使わずに,マルチビュー機能を3次元セマンティックマスクに分類・融合する,単純なyet効率のMaskFusionモジュールを設計する。
分離マスクの提案とテキスト入力の設計は、プロンプト毎の推論の効率を大幅に向上させる。
種々の3次元人体データセットによる実験結果から,本手法は最先端のオープンボキャブラリ3次元セグメンテーション法よりも大きなマージンで優れていることがわかった。
さらに,本手法はメッシュ,点雲,3次元ガウススプラッティングなど,様々な3次元表現に対して直接適用可能であることを示す。
関連論文リスト
- DCSEG: Decoupled 3D Open-Set Segmentation using Gaussian Splatting [0.0]
オープンセット3Dセグメンテーションは、下流ロボティクスと拡張現実/バーチャルリアリティーアプリケーションにとって大きな関心事である。
本稿では,新しい3次元表現とセマンティックセグメンテーション基盤モデルに対するモジュラリティと適応性を確保するために,分離された3次元セグメンテーションパイプラインを提案する。
論文 参考訳(メタデータ) (2024-12-14T21:26:44Z) - XMask3D: Cross-modal Mask Reasoning for Open Vocabulary 3D Semantic Segmentation [72.12250272218792]
本稿では,3次元特徴量と2次元テキスト埋め込み空間とのより精巧なマスクレベルのアライメントを,クロスモーダルマスク推論フレームワークであるXMask3Dを用いて提案する。
我々は、3Dグローバルな特徴を暗黙の条件として、事前訓練された2D denoising UNetに統合し、セグメンテーションマスクの生成を可能にする。
生成した2Dマスクを用いて、マスクレベルの3D表現を視覚言語の特徴空間と整合させ、3D幾何埋め込みの開語彙能力を増大させる。
論文 参考訳(メタデータ) (2024-11-20T12:02:12Z) - Label-Efficient 3D Brain Segmentation via Complementary 2D Diffusion Models with Orthogonal Views [10.944692719150071]
相補的な2次元拡散モデルを用いた新しい3次元脳分割法を提案する。
私たちのゴールは、個々の主題に対して完全なラベルを必要とせずに、信頼性の高いセグメンテーション品質を達成することです。
論文 参考訳(メタデータ) (2024-07-17T06:14:53Z) - Reasoning3D -- Grounding and Reasoning in 3D: Fine-Grained Zero-Shot Open-Vocabulary 3D Reasoning Part Segmentation via Large Vision-Language Models [20.277479473218513]
オブジェクトの検索とローカライズのためのZero-Shot 3D Reasoningを提案する。
複雑なコマンドを理解し実行するためのシンプルなベースラインメソッドReasoning3Dを設計する。
Reasoning3Dは、暗黙のテキストクエリに基づいて、3Dオブジェクトの一部を効果的にローカライズし、ハイライトすることができることを示す。
論文 参考訳(メタデータ) (2024-05-29T17:56:07Z) - Segment Any 3D Object with Language [58.471327490684295]
本稿では,Segment any 3D Object with LanguagE (SOLE)を紹介した。
具体的には、バックボーンとデコーダの両方にマルチモーダル意味を組み込むマルチモーダル融合ネットワークを提案する。
我々のSOLEは、ScanNetv2、ScanNet200、Replicaベンチマークにおいて、従来の方法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-04-02T17:59:10Z) - SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。
我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。
ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-12-17T09:05:47Z) - OpenMask3D: Open-Vocabulary 3D Instance Segmentation [84.58747201179654]
OpenMask3Dはオープンな3Dインスタンスセグメンテーションのためのゼロショットアプローチである。
私たちのモデルは、CLIPベースの画像埋め込みのマルチビュー融合により、マスクごとの特徴を集約する。
論文 参考訳(メタデータ) (2023-06-23T17:36:44Z) - Weakly Supervised 3D Open-vocabulary Segmentation [104.07740741126119]
学習済み基礎モデルCLIPとDINOを弱教師付きで活用することで,3次元オープン語彙セグメンテーションの課題に取り組む。
我々はCLIPとDINOのオープン語彙多様知識とオブジェクト推論能力をニューラルラディアンス場(NeRF)に蒸留する。
提案手法の特筆すべき点は,基礎モデルや蒸留プロセスに手動セグメンテーションアノテーションを必要としない点である。
論文 参考訳(メタデータ) (2023-05-23T14:16:49Z) - PartSLIP: Low-Shot Part Segmentation for 3D Point Clouds via Pretrained
Image-Language Models [56.324516906160234]
一般化可能な3D部分分割は重要だが、ビジョンとロボティクスでは難しい。
本稿では,事前学習した画像言語モデルGLIPを利用して,3次元点雲の低ショット部分分割法を提案する。
我々は2Dから3Dへの豊富な知識を、ポイントクラウドレンダリングにおけるGLIPに基づく部分検出と新しい2D-to-3Dラベルリフトアルゴリズムにより転送する。
論文 参考訳(メタデータ) (2022-12-03T06:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。