論文の概要: MaskClustering: View Consensus based Mask Graph Clustering for
Open-Vocabulary 3D Instance Segmentation
- arxiv url: http://arxiv.org/abs/2401.07745v1
- Date: Mon, 15 Jan 2024 14:56:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 16:46:51.720445
- Title: MaskClustering: View Consensus based Mask Graph Clustering for
Open-Vocabulary 3D Instance Segmentation
- Title(参考訳): MaskClustering: オープン語彙3Dインスタンスセグメンテーションのためのビューコンセンサスベースのマスクグラフクラスタリング
- Authors: Mi Yan, Jiazhao Zhang, Yan Zhu, He Wang
- Abstract要約: 3次元オープンボキャブラリインスタンスセグメンテーションの方法は、高品質なアノテートされた3Dデータの限られたスケールによって妨げられる。
我々は,ビューコンセンサスと呼ばれる新しいメトリクスを提案し,マルチビュー観測をよりよく活用する。
本手法は,オープンボキャブラリインスタンスセグメンテーションとクラス非依存マスク生成の両方において,最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 12.151538792378945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-vocabulary 3D instance segmentation has emerged as a frontier topic due
to its capability to segment 3D instances beyond a predefined set of
categories. However, compared to significant progress in the 2D domain, methods
for 3D open-vocabulary instance segmentation are hindered by the limited scale
of high-quality annotated 3D data. To harness the capabilities of 2D models,
recent efforts have focused on merging 2D masks based on metrics such as
geometric and semantic similarity to form 3D instances. In contrast to these
local metrics, we propose a novel metric called view consensus to better
exploit multi-view observation. The key insight is that two 2D masks should be
considered as belonging to the same instance if a considerable number of other
2D masks from other views contain both these two masks. Based on this metric,
we build a global mask graph and iteratively cluster masks, prioritizing mask
pairs with solid view consensus. The corresponding 3D points cluster of these
2D mask clusters can be regarded as 3D instances, along with the fused
open-vocabulary features from clustered 2D masks. Through this multi-view
verification and fusion mechanism, our method effectively leverages the prior
instance knowledge from massive 2D masks predicted by visual foundation models,
eliminating the need for training on 3D data. Experiments on publicly available
datasets, including ScanNet200 and MatterPort3D, demonstrate that our method
achieves state-of-the-art performance in both open-vocabulary instance
segmentation and class-agnostic mask generation. Our project page is at
https://pku-epic.github.io/MaskClustering.
- Abstract(参考訳): オープン語彙の3Dインスタンスセグメンテーションは、事前に定義されたカテゴリのセットを超えて3Dインスタンスをセグメンテーションする機能のために、フロンティアトピックとして登場した。
しかし, 2次元領域において顕著な進歩をみれば, 3次元オープンボキャブラリインスタンスセグメンテーションの手法は, 高品質な注釈付き3次元データの限られたスケールによって妨げられる。
2Dモデルの性能を活用するため、近年の取り組みは、幾何学的および意味的類似性などのメトリクスに基づいて2Dマスクをマージすることに焦点を当てている。
これらの局所的な指標とは対照的に、多視点観察をよりよく活用するためのビューコンセンサスと呼ばれる新しいメトリクスを提案する。
重要な洞察として、2つの2dマスクは、他の視点からの多くの他の2dマスクがこれら2つのマスクの両方を含む場合、同じインスタンスに属するものとみなされるべきである。
この指標に基づいて、我々はグローバルマスクグラフと反復的にクラスタマスクを構築し、安定した視点のコンセンサスでマスクペアを優先順位付けする。
これらの2Dマスククラスタの対応する3Dポイントクラスタは、クラスタ化された2Dマスクから融合したオープン語彙の特徴とともに、3Dインスタンスと見なすことができる。
この多視点検証と融合機構により,視覚基礎モデルにより予測される巨大な2次元マスクからの事前のインスタンス知識を効果的に活用し,3次元データのトレーニングを不要とする。
ScanNet200やMatterPort3Dといった公開データセットの実験では,オープン語彙のインスタンスセグメンテーションとクラス非依存マスク生成の両方において,最先端のパフォーマンスを実現することが実証された。
私たちのプロジェクトページはhttps://pku-epic.github.io/MaskClustering.comです。
関連論文リスト
- CutS3D: Cutting Semantics in 3D for 2D Unsupervised Instance Segmentation [13.871856894814005]
我々は,シーンのポイントクラウド表現を利用して,最後の2Dインスタンスを得るために,3次元のセマンティックマスクをカットすることを提案する。
また,クリーンな学習信号の分離を目的とした3つの空間信頼成分を用いたクラス非依存検出器のトレーニングの強化も提案する。
論文 参考訳(メタデータ) (2024-11-25T12:11:27Z) - Any3DIS: Class-Agnostic 3D Instance Segmentation by 2D Mask Tracking [6.599971425078935]
既存の3Dインスタンスセグメンテーションメソッドは、オーバーセグメンテーションの問題に頻繁に遭遇し、下流タスクを複雑にする冗長で不正確な3D提案につながります。
この課題は、フレーム全体に密集した2Dマスクを点雲に上げ、直接の監督なしに3D候補の提案を形成する、教師なしのマージンアプローチから生じる。
本研究では,2次元マスクセグメンテーション・トラッキング基盤モデル(SAM-2)を用いて,映像フレーム間の一貫したオブジェクトマスクを確保する3次元マスク追跡モジュールを提案する。
論文 参考訳(メタデータ) (2024-11-25T08:26:31Z) - XMask3D: Cross-modal Mask Reasoning for Open Vocabulary 3D Semantic Segmentation [72.12250272218792]
本稿では,3次元特徴量と2次元テキスト埋め込み空間とのより精巧なマスクレベルのアライメントを,クロスモーダルマスク推論フレームワークであるXMask3Dを用いて提案する。
我々は、3Dグローバルな特徴を暗黙の条件として、事前訓練された2D denoising UNetに統合し、セグメンテーションマスクの生成を可能にする。
生成した2Dマスクを用いて、マスクレベルの3D表現を視覚言語の特徴空間と整合させ、3D幾何埋め込みの開語彙能力を増大させる。
論文 参考訳(メタデータ) (2024-11-20T12:02:12Z) - EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。
オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文 参考訳(メタデータ) (2024-08-21T17:57:06Z) - SAM-guided Graph Cut for 3D Instance Segmentation [60.75119991853605]
本稿では,3次元画像情報と多視点画像情報の同時利用による3次元インスタンス分割の課題に対処する。
本稿では,3次元インスタンスセグメンテーションのための2次元セグメンテーションモデルを効果的に活用する新しい3D-to-2Dクエリフレームワークを提案する。
本手法は,ロバストなセグメンテーション性能を実現し,異なるタイプのシーンにまたがる一般化を実現する。
論文 参考訳(メタデータ) (2023-12-13T18:59:58Z) - OpenIns3D: Snap and Lookup for 3D Open-vocabulary Instance Segmentation [32.508069732371105]
OpenIns3Dは、3Dオープン語彙シーン理解のための新しい3D入力専用フレームワークである。
様々な3Dオープン語彙タスクで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-09-01T17:59:56Z) - OpenMask3D: Open-Vocabulary 3D Instance Segmentation [84.58747201179654]
OpenMask3Dはオープンな3Dインスタンスセグメンテーションのためのゼロショットアプローチである。
私たちのモデルは、CLIPベースの画像埋め込みのマルチビュー融合により、マスクごとの特徴を集約する。
論文 参考訳(メタデータ) (2023-06-23T17:36:44Z) - Segment Anything in 3D with Radiance Fields [83.14130158502493]
本稿では,Segment Anything Model (SAM) を一般化して3次元オブジェクトをセグメント化する。
提案手法をSA3D, 略してSegment Anything in 3Dと呼ぶ。
実験では,SA3Dが様々なシーンに適応し,数秒で3Dセグメンテーションを実現することを示す。
論文 参考訳(メタデータ) (2023-04-24T17:57:15Z) - Mask3D: Mask Transformer for 3D Semantic Instance Segmentation [89.41640045953378]
一般的なTransformerビルディングブロックを利用して、3Dポイントクラウドからインスタンスマスクを直接予測できることが示されています。
Transformerデコーダを使用して、インスタンスクエリは、複数のスケールでクラウド機能をポイントする反復的な参加者によって学習される。
Mask3Dは、新しい最先端ScanNetテスト(+6.2 mAP)、S3DIS 6-fold(+10.1 mAP)、LS3D(+11.2 mAP)、ScanNet200テスト(+12.4 mAP)を設定する。
論文 参考訳(メタデータ) (2022-10-06T17:55:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。