論文の概要: SAI3D: Segment Any Instance in 3D Scenes
- arxiv url: http://arxiv.org/abs/2312.11557v1
- Date: Sun, 17 Dec 2023 09:05:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 18:33:22.274054
- Title: SAI3D: Segment Any Instance in 3D Scenes
- Title(参考訳): SAI3D:3Dシーンで任意のインスタンスをセグメント化
- Authors: Yingda Yin, Yuzheng Liu, Yang Xiao, Daniel Cohen-Or, Jingwei Huang,
Baoquan Chen
- Abstract要約: 新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。
我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。
Scan-Netとより挑戦的なScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
- 参考スコア(独自算出の注目度): 72.65788433148309
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advancements in 3D instance segmentation have traditionally been tethered to
the availability of annotated datasets, limiting their application to a narrow
spectrum of object categories. Recent efforts have sought to harness
vision-language models like CLIP for open-set semantic reasoning, yet these
methods struggle to distinguish between objects of the same categories and rely
on specific prompts that are not universally applicable. In this paper, we
introduce SAI3D, a novel zero-shot 3D instance segmentation approach that
synergistically leverages geometric priors and semantic cues derived from
Segment Anything Model (SAM). Our method partitions a 3D scene into geometric
primitives, which are then progressively merged into 3D instance segmentations
that are consistent with the multi-view SAM masks. Moreover, we design a
hierarchical region-growing algorithm with a dynamic thresholding mechanism,
which largely improves the robustness of finegrained 3D scene parsing.
Empirical evaluations on Scan-Net and the more challenging ScanNet++ datasets
demonstrate the superiority of our approach. Notably, SAI3D outperforms
existing open-vocabulary baselines and even surpasses fully-supervised methods
in class-agnostic segmentation on ScanNet++.
- Abstract(参考訳): 3Dインスタンスセグメンテーションの進歩は、伝統的にアノテーション付きデータセットの可用性に結び付けられており、その適用範囲はオブジェクトカテゴリの狭い範囲に限られている。
近年、CLIPのような視覚言語モデルを用いて、オープンセットのセマンティック推論を行っているが、これらの手法は同じカテゴリのオブジェクトを区別し、普遍的に適用できない特定のプロンプトに依存するのに苦労している。
本稿では,SAI3Dについて述べる。SAI3Dは,Segment Anything Model(SAM)から得られる幾何学的先行と意味的手がかりを相乗的に活用する,新しいゼロショット3Dインスタンスセグメンテーション手法である。
本手法では, 3次元シーンを幾何学的プリミティブに分割し, 多視点SAMマスクと整合した3次元インスタンスセグメンテーションに段階的にマージする。
さらに,動的しきい値機構を用いた階層的領域成長アルゴリズムの設計を行い,細粒度3次元シーン解析のロバスト性を大幅に改善した。
Scan-Netとより挑戦的なScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
特に、SAI3Dは既存のオープン語彙ベースラインよりも優れており、ScanNet++のクラスに依存しないセグメンテーションにおいて完全に教師されたメソッドよりも優れている。
関連論文リスト
- SA3DIP: Segment Any 3D Instance with Potential 3D Priors [41.907914881608995]
本稿では,SA3DIPを提案する。SA3DIPは,任意の3Dインスタンスを,潜在的3Dプライオリティを利用してセグメント化するための新しい手法である。
具体的には,幾何学的およびテクスチャ的先行性の両方に基づいて,相補的な3Dプリミティブを生成する。
一方,3次元検出器を用いて3次元空間からの補足制約を導入し,さらなるマージプロセスの導出を行う。
論文 参考訳(メタデータ) (2024-11-06T10:39:00Z) - Instance Consistency Regularization for Semi-Supervised 3D Instance Segmentation [50.51125319374404]
ラベルのないデータから純粋なインスタンス知識を探索し活用するための,新たな自己学習ネットワークInsTeacher3Dを提案する。
複数の大規模データセットの実験結果から、InsTeacher3Dは最先端の半教師付きアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-06-24T16:35:58Z) - Segment Any 3D Object with Language [58.471327490684295]
本稿では,Segment any 3D Object with LanguagE (SOLE)を紹介した。
具体的には、バックボーンとデコーダの両方にマルチモーダル意味を組み込むマルチモーダル融合ネットワークを提案する。
我々のSOLEは、ScanNetv2、ScanNet200、Replicaベンチマークにおいて、従来の方法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-04-02T17:59:10Z) - Open3DIS: Open-Vocabulary 3D Instance Segmentation with 2D Mask Guidance [49.14140194332482]
Open3DISは3Dシーン内でのOpen-Vocabulary Instanceの問題に対処するために設計された新しいソリューションである。
3D環境内のオブジェクトは、さまざまな形状、スケール、色を示し、正確なインスタンスレベルの識別が困難なタスクとなる。
論文 参考訳(メタデータ) (2023-12-17T10:07:03Z) - SAM-guided Graph Cut for 3D Instance Segmentation [60.75119991853605]
本稿では,3次元画像情報と多視点画像情報の同時利用による3次元インスタンス分割の課題に対処する。
本稿では,3次元インスタンスセグメンテーションのための2次元セグメンテーションモデルを効果的に活用する新しい3D-to-2Dクエリフレームワークを提案する。
本手法は,ロバストなセグメンテーション性能を実現し,異なるタイプのシーンにまたがる一般化を実現する。
論文 参考訳(メタデータ) (2023-12-13T18:59:58Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - UnScene3D: Unsupervised 3D Instance Segmentation for Indoor Scenes [35.38074724231105]
UnScene3Dは、クラスに依存しない屋内スキャンの3Dインスタンスセグメンテーションのための、完全に教師なしの3D学習アプローチである。
高分解能な3次元データに基づく効率的な表現と学習を可能にする。
提案手法は,最先端の教師なし3次元インスタンス分割法を平均精度300%以上で改善する。
論文 参考訳(メタデータ) (2023-03-25T19:15:16Z) - Spatial Semantic Embedding Network: Fast 3D Instance Segmentation with
Deep Metric Learning [5.699350798684963]
ディープラーニングを用いた3次元インスタンスセグメンテーションのための,単純かつ効率的なアルゴリズムを提案する。
大規模シーンからの高レベルのインテリジェントなタスクに対して、3Dインスタンスセグメンテーションはオブジェクトの個々のインスタンスを認識する。
我々は,ScanNet 3D インスタンス分割ベンチマークにおいて,我々のアルゴリズムの最先端性能をAPスコアで示す。
論文 参考訳(メタデータ) (2020-07-07T02:17:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。