論文の概要: MaskClustering: View Consensus based Mask Graph Clustering for Open-Vocabulary 3D Instance Segmentation
- arxiv url: http://arxiv.org/abs/2401.07745v2
- Date: Wed, 10 Apr 2024 15:30:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-11 18:56:10.842906
- Title: MaskClustering: View Consensus based Mask Graph Clustering for Open-Vocabulary 3D Instance Segmentation
- Title(参考訳): MaskClustering: オープン語彙3Dインスタンスセグメンテーションのためのビューコンセンサスベースのマスクグラフクラスタリング
- Authors: Mi Yan, Jiazhao Zhang, Yan Zhu, He Wang,
- Abstract要約: オープン語彙の3Dインスタンスセグメンテーションは、事前に定義されたカテゴリなしで3Dインスタンスをセグメンテーションできる能力のために最先端である。
最近の研究はまず2Dモデルを通して2Dオープンボキャブラリマスクを生成し、2つの隣接するフレーム間で計算されたメトリクスに基づいてそれらを3Dインスタンスにマージする。
本稿では,多視点観測の利用率を高めるために,新しい基準であるビューコンセンサス率を提案する。
- 参考スコア(独自算出の注目度): 11.123421412837336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-vocabulary 3D instance segmentation is cutting-edge for its ability to segment 3D instances without predefined categories. However, progress in 3D lags behind its 2D counterpart due to limited annotated 3D data. To address this, recent works first generate 2D open-vocabulary masks through 2D models and then merge them into 3D instances based on metrics calculated between two neighboring frames. In contrast to these local metrics, we propose a novel metric, view consensus rate, to enhance the utilization of multi-view observations. The key insight is that two 2D masks should be deemed part of the same 3D instance if a significant number of other 2D masks from different views contain both these two masks. Using this metric as edge weight, we construct a global mask graph where each mask is a node. Through iterative clustering of masks showing high view consensus, we generate a series of clusters, each representing a distinct 3D instance. Notably, our model is training-free. Through extensive experiments on publicly available datasets, including ScanNet++, ScanNet200 and MatterPort3D, we demonstrate that our method achieves state-of-the-art performance in open-vocabulary 3D instance segmentation. Our project page is at https://pku-epic.github.io/MaskClustering.
- Abstract(参考訳): オープン語彙の3Dインスタンスセグメンテーションは、事前に定義されたカテゴリなしで3Dインスタンスをセグメンテーションできる能力のために最先端である。
しかし、注釈付き3Dデータに制限があるため、2Dに先立って3Dラグが進行している。
これを解決するために、最近の研究はまず2Dモデルを通して2Dオープン語彙マスクを生成し、次に隣り合う2つのフレーム間で計算されたメトリクスに基づいてそれらを3Dインスタンスにマージする。
これらの局所的な指標とは対照的に,多視点観測の利用率を高めるために,新しい基準であるビューコンセンサスレートを提案する。
重要な洞察は、2つの2Dマスクが2つのマスクを含む他の多くの2Dマスクが2つのマスクを含む場合、同じ3Dマスクの一部と見なされるべきであるということである。
この計量をエッジウェイトとして、各マスクがノードとなるグローバルマスクグラフを構築する。
高視野のコンセンサスを示すマスクの反復的なクラスタリングを通じて、それぞれが異なる3Dインスタンスを表す一連のクラスタを生成します。
特に、私たちのモデルはトレーニングなしです。
ScanNet++、ScanNet200、MatterPort3Dなどの公開データセットに関する広範な実験を通じて、オープンな3Dインスタンスセグメンテーションにおいて、我々の手法が最先端のパフォーマンスを達成することを実証した。
私たちのプロジェクトページはhttps://pku-epic.github.io/MaskClustering.comです。
関連論文リスト
- Open3DIS: Open-Vocabulary 3D Instance Segmentation with 2D Mask Guidance [49.14140194332482]
Open3DISは3Dシーン内でのOpen-Vocabulary Instanceの問題に対処するために設計された新しいソリューションである。
3D環境内のオブジェクトは、さまざまな形状、スケール、色を示し、正確なインスタンスレベルの識別が困難なタスクとなる。
論文 参考訳(メタデータ) (2023-12-17T10:07:03Z) - SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。
我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。
ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-12-17T09:05:47Z) - SAM-guided Graph Cut for 3D Instance Segmentation [63.797612618531346]
本稿では,3次元画像情報と多視点画像情報の同時利用による3次元インスタンス分割の課題に対処する。
本稿では,3次元インスタンスセグメンテーションのための2次元セグメンテーションモデルを効果的に活用する新しい3D-to-2Dクエリフレームワークを提案する。
本手法は,ロバストなセグメンテーション性能を実現し,異なるタイプのシーンにまたがる一般化を実現する。
論文 参考訳(メタデータ) (2023-12-13T18:59:58Z) - OpenIns3D: Snap and Lookup for 3D Open-vocabulary Instance Segmentation [34.44606500900042]
現在の3次元オープンボキャブラリシーン理解手法は,3次元特徴を言語で学習するためのブリッジとして,よく整列した2次元イメージを主に利用している。
2次元画像入力を必要としないOpenIns3Dを導入し、インスタンスレベルでの3次元オープン語彙シーン理解を実現する。
この2次元入力自由で柔軟なアプローチは、広範囲の屋内および屋外データセットに対して大きなマージンで結果を得る。
論文 参考訳(メタデータ) (2023-09-01T17:59:56Z) - OpenMask3D: Open-Vocabulary 3D Instance Segmentation [84.58747201179654]
OpenMask3Dはオープンな3Dインスタンスセグメンテーションのためのゼロショットアプローチである。
私たちのモデルは、CLIPベースの画像埋め込みのマルチビュー融合により、マスクごとの特徴を集約する。
論文 参考訳(メタデータ) (2023-06-23T17:36:44Z) - Segment Anything in 3D with Radiance Fields [83.14130158502493]
本稿では,Segment Anything Model (SAM) を一般化して3次元オブジェクトをセグメント化する。
提案手法をSA3D, 略してSegment Anything in 3Dと呼ぶ。
実験では,SA3Dが様々なシーンに適応し,数秒で3Dセグメンテーションを実現することを示す。
論文 参考訳(メタデータ) (2023-04-24T17:57:15Z) - Mask3D: Mask Transformer for 3D Semantic Instance Segmentation [89.41640045953378]
一般的なTransformerビルディングブロックを利用して、3Dポイントクラウドからインスタンスマスクを直接予測できることが示されています。
Transformerデコーダを使用して、インスタンスクエリは、複数のスケールでクラウド機能をポイントする反復的な参加者によって学習される。
Mask3Dは、新しい最先端ScanNetテスト(+6.2 mAP)、S3DIS 6-fold(+10.1 mAP)、LS3D(+11.2 mAP)、ScanNet200テスト(+12.4 mAP)を設定する。
論文 参考訳(メタデータ) (2022-10-06T17:55:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。