論文の概要: MaskClustering: View Consensus based Mask Graph Clustering for
Open-Vocabulary 3D Instance Segmentation
- arxiv url: http://arxiv.org/abs/2401.07745v1
- Date: Mon, 15 Jan 2024 14:56:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 16:46:51.720445
- Title: MaskClustering: View Consensus based Mask Graph Clustering for
Open-Vocabulary 3D Instance Segmentation
- Title(参考訳): MaskClustering: オープン語彙3Dインスタンスセグメンテーションのためのビューコンセンサスベースのマスクグラフクラスタリング
- Authors: Mi Yan, Jiazhao Zhang, Yan Zhu, He Wang
- Abstract要約: 3次元オープンボキャブラリインスタンスセグメンテーションの方法は、高品質なアノテートされた3Dデータの限られたスケールによって妨げられる。
我々は,ビューコンセンサスと呼ばれる新しいメトリクスを提案し,マルチビュー観測をよりよく活用する。
本手法は,オープンボキャブラリインスタンスセグメンテーションとクラス非依存マスク生成の両方において,最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 12.151538792378945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-vocabulary 3D instance segmentation has emerged as a frontier topic due
to its capability to segment 3D instances beyond a predefined set of
categories. However, compared to significant progress in the 2D domain, methods
for 3D open-vocabulary instance segmentation are hindered by the limited scale
of high-quality annotated 3D data. To harness the capabilities of 2D models,
recent efforts have focused on merging 2D masks based on metrics such as
geometric and semantic similarity to form 3D instances. In contrast to these
local metrics, we propose a novel metric called view consensus to better
exploit multi-view observation. The key insight is that two 2D masks should be
considered as belonging to the same instance if a considerable number of other
2D masks from other views contain both these two masks. Based on this metric,
we build a global mask graph and iteratively cluster masks, prioritizing mask
pairs with solid view consensus. The corresponding 3D points cluster of these
2D mask clusters can be regarded as 3D instances, along with the fused
open-vocabulary features from clustered 2D masks. Through this multi-view
verification and fusion mechanism, our method effectively leverages the prior
instance knowledge from massive 2D masks predicted by visual foundation models,
eliminating the need for training on 3D data. Experiments on publicly available
datasets, including ScanNet200 and MatterPort3D, demonstrate that our method
achieves state-of-the-art performance in both open-vocabulary instance
segmentation and class-agnostic mask generation. Our project page is at
https://pku-epic.github.io/MaskClustering.
- Abstract(参考訳): オープン語彙の3Dインスタンスセグメンテーションは、事前に定義されたカテゴリのセットを超えて3Dインスタンスをセグメンテーションする機能のために、フロンティアトピックとして登場した。
しかし, 2次元領域において顕著な進歩をみれば, 3次元オープンボキャブラリインスタンスセグメンテーションの手法は, 高品質な注釈付き3次元データの限られたスケールによって妨げられる。
2Dモデルの性能を活用するため、近年の取り組みは、幾何学的および意味的類似性などのメトリクスに基づいて2Dマスクをマージすることに焦点を当てている。
これらの局所的な指標とは対照的に、多視点観察をよりよく活用するためのビューコンセンサスと呼ばれる新しいメトリクスを提案する。
重要な洞察として、2つの2dマスクは、他の視点からの多くの他の2dマスクがこれら2つのマスクの両方を含む場合、同じインスタンスに属するものとみなされるべきである。
この指標に基づいて、我々はグローバルマスクグラフと反復的にクラスタマスクを構築し、安定した視点のコンセンサスでマスクペアを優先順位付けする。
これらの2Dマスククラスタの対応する3Dポイントクラスタは、クラスタ化された2Dマスクから融合したオープン語彙の特徴とともに、3Dインスタンスと見なすことができる。
この多視点検証と融合機構により,視覚基礎モデルにより予測される巨大な2次元マスクからの事前のインスタンス知識を効果的に活用し,3次元データのトレーニングを不要とする。
ScanNet200やMatterPort3Dといった公開データセットの実験では,オープン語彙のインスタンスセグメンテーションとクラス非依存マスク生成の両方において,最先端のパフォーマンスを実現することが実証された。
私たちのプロジェクトページはhttps://pku-epic.github.io/MaskClustering.comです。
関連論文リスト
- Open3DIS: Open-vocabulary 3D Instance Segmentation with 2D Mask Guidance [51.60563295730421]
Open3DISは3Dシーン内でのOpen-Vocabulary Instanceの問題に対処するために設計された新しいソリューションである。
3D環境内のオブジェクトは、さまざまな形状、スケール、色を示し、正確なインスタンスレベルの識別が困難なタスクとなる。
論文 参考訳(メタデータ) (2023-12-17T10:07:03Z) - OpenMask3D: Open-Vocabulary 3D Instance Segmentation [84.58747201179654]
OpenMask3Dはオープンな3Dインスタンスセグメンテーションのためのゼロショットアプローチである。
私たちのモデルは、CLIPベースの画像埋め込みのマルチビュー融合により、マスクごとの特徴を集約する。
論文 参考訳(メタデータ) (2023-06-23T17:36:44Z) - Segment Anything in 3D with NeRFs [85.52053469567853]
本稿では,Segment Anything Model (SAM) を一般化して3次元オブジェクトをセグメント化する。
我々は、マルチビュー2D画像を3D空間に接続する安価なオフザシェルフとして、Neural Radiance Field(NeRF)を使用している。
実験では,SA3Dが様々な場面に適応し,数分で3Dセグメンテーションを実現することを示す。
論文 参考訳(メタデータ) (2023-04-24T17:57:15Z) - Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud
Pre-training [65.75399500494343]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
自己監督型3次元点雲事前学習のための2D-3DジョイントMAEフレームワークであるJoint-MAEを提案する。
論文 参考訳(メタデータ) (2023-02-27T17:56:18Z) - Mask3D: Mask Transformer for 3D Semantic Instance Segmentation [89.41640045953378]
一般的なTransformerビルディングブロックを利用して、3Dポイントクラウドからインスタンスマスクを直接予測できることが示されています。
Transformerデコーダを使用して、インスタンスクエリは、複数のスケールでクラウド機能をポイントする反復的な参加者によって学習される。
Mask3Dは、新しい最先端ScanNetテスト(+6.2 mAP)、S3DIS 6-fold(+10.1 mAP)、LS3D(+11.2 mAP)、ScanNet200テスト(+12.4 mAP)を設定する。
論文 参考訳(メタデータ) (2022-10-06T17:55:09Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - 3D Instance Segmentation of MVS Buildings [5.2517244720510305]
本稿では,多視点ステレオ(MVS)都市シーンから3次元建物をセグメント化するための新しい枠組みを提案する。
この研究の重点は、大型で不正確な3D表面モデルに取り付けられたとしても、3Dビルディングインスタンスを検出し、セグメンテーションすることにある。
論文 参考訳(メタデータ) (2021-12-18T11:12:38Z) - SDOD:Real-time Segmenting and Detecting 3D Object by Depth [5.97602869680438]
本稿では,3次元物体を奥行きで分割・検出するリアルタイムフレームワークを提案する。
オブジェクトの深さを深度カテゴリに分類し、インスタンス分割タスクをピクセルレベルの分類タスクに変換する。
挑戦的なKITTIデータセットの実験から、我々のアプローチはLklNetを約1.8倍の性能で、セグメンテーションと3D検出の速度を上回ります。
論文 参考訳(メタデータ) (2020-01-26T09:06:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。