Fugu-MT 論文翻訳(概要): SAI3D: Segment Any Instance in 3D Scenes

論文の概要: SAI3D: Segment Any Instance in 3D Scenes

arxiv url: http://arxiv.org/abs/2312.11557v1
Date: Sun, 17 Dec 2023 09:05:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-20 18:33:22.274054
Title: SAI3D: Segment Any Instance in 3D Scenes
Title（参考訳）: SAI3D:3Dシーンで任意のインスタンスをセグメント化
Authors: Yingda Yin, Yuzheng Liu, Yang Xiao, Daniel Cohen-Or, Jingwei Huang, Baoquan Chen
Abstract要約: 新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。 Scan-Netとより挑戦的なScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
参考スコア（独自算出の注目度）: 72.65788433148309
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Advancements in 3D instance segmentation have traditionally been tethered to the availability of annotated datasets, limiting their application to a narrow spectrum of object categories. Recent efforts have sought to harness vision-language models like CLIP for open-set semantic reasoning, yet these methods struggle to distinguish between objects of the same categories and rely on specific prompts that are not universally applicable. In this paper, we introduce SAI3D, a novel zero-shot 3D instance segmentation approach that synergistically leverages geometric priors and semantic cues derived from Segment Anything Model (SAM). Our method partitions a 3D scene into geometric primitives, which are then progressively merged into 3D instance segmentations that are consistent with the multi-view SAM masks. Moreover, we design a hierarchical region-growing algorithm with a dynamic thresholding mechanism, which largely improves the robustness of finegrained 3D scene parsing. Empirical evaluations on Scan-Net and the more challenging ScanNet++ datasets demonstrate the superiority of our approach. Notably, SAI3D outperforms existing open-vocabulary baselines and even surpasses fully-supervised methods in class-agnostic segmentation on ScanNet++.
Abstract（参考訳）: 3Dインスタンスセグメンテーションの進歩は、伝統的にアノテーション付きデータセットの可用性に結び付けられており、その適用範囲はオブジェクトカテゴリの狭い範囲に限られている。近年、CLIPのような視覚言語モデルを用いて、オープンセットのセマンティック推論を行っているが、これらの手法は同じカテゴリのオブジェクトを区別し、普遍的に適用できない特定のプロンプトに依存するのに苦労している。本稿では,SAI3Dについて述べる。SAI3Dは,Segment Anything Model(SAM)から得られる幾何学的先行と意味的手がかりを相乗的に活用する,新しいゼロショット3Dインスタンスセグメンテーション手法である。本手法では, 3次元シーンを幾何学的プリミティブに分割し, 多視点SAMマスクと整合した3次元インスタンスセグメンテーションに段階的にマージする。さらに,動的しきい値機構を用いた階層的領域成長アルゴリズムの設計を行い,細粒度3次元シーン解析のロバスト性を大幅に改善した。 Scan-Netとより挑戦的なScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。特に、SAI3Dは既存のオープン語彙ベースラインよりも優れており、ScanNet++のクラスに依存しないセグメンテーションにおいて完全に教師されたメソッドよりも優れている。

関連論文リスト

OpenSplat3D: Open-Vocabulary 3D Instance Segmentation using Gaussian Splatting [52.40697058096931]
3D Gaussian Splatting (3DGS)は神経シーン再構築の強力な表現として登場した。我々は,OpenSplat3Dと呼ばれる手動ラベリングを必要としないオープン語彙3Dインスタンスセグメンテーションのアプローチを提案する。 LERF-mask と LERF-OVS と ScanNet++ の完全な検証セットについて,本手法の有効性を実証した。
論文参考訳（メタデータ） (2025-06-09T12:37:15Z)
MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation [87.30919771444117]
推論セグメンテーション(Reasoning segmentation)は、人間の意図と空間的推論に基づく複雑なシーンにおける対象オブジェクトのセグメンテーションを目的としている。最近のマルチモーダル大言語モデル(MLLM)は印象的な2次元画像推論セグメンテーションを実証している。本稿では,2次元MLLMから3次元シーン理解へ知識を伝達するフレームワークであるMLLM-For3Dを紹介する。
論文参考訳（メタデータ） (2025-03-23T16:40:20Z)
SA3DIP: Segment Any 3D Instance with Potential 3D Priors [41.907914881608995]
本稿では,SA3DIPを提案する。SA3DIPは,任意の3Dインスタンスを,潜在的3Dプライオリティを利用してセグメント化するための新しい手法である。具体的には,幾何学的およびテクスチャ的先行性の両方に基づいて,相補的な3Dプリミティブを生成する。一方,3次元検出器を用いて3次元空間からの補足制約を導入し,さらなるマージプロセスの導出を行う。
論文参考訳（メタデータ） (2024-11-06T10:39:00Z)
Search3D: Hierarchical Open-Vocabulary 3D Segmentation [78.47704793095669]
オープンな3Dセグメンテーションにより、自由形式のテキスト記述を用いた3D空間の探索が可能となる。本稿では,階層的なオープンな3Dシーン表現を構築するアプローチであるSearch3Dを紹介する。本手法は,より柔軟なオープンな3次元検索設定にシフトすることで,オープン語彙のインスタンスレベル3次元セグメンテーションの能力を拡大することを目的としている。
論文参考訳（メタデータ） (2024-09-27T03:44:07Z)
Instance Consistency Regularization for Semi-Supervised 3D Instance Segmentation [50.51125319374404]
ラベルのないデータから純粋なインスタンス知識を探索し活用するための,新たな自己学習ネットワークInsTeacher3Dを提案する。複数の大規模データセットの実験結果から、InsTeacher3Dは最先端の半教師付きアプローチよりも大幅に優れていた。
論文参考訳（メタデータ） (2024-06-24T16:35:58Z)
Segment Any 3D Object with Language [58.471327490684295]
本稿では,Segment any 3D Object with LanguagE (SOLE)を紹介した。具体的には、バックボーンとデコーダの両方にマルチモーダル意味を組み込むマルチモーダル融合ネットワークを提案する。我々のSOLEは、ScanNetv2、ScanNet200、Replicaベンチマークにおいて、従来の方法よりも大きなマージンで優れている。
論文参考訳（メタデータ） (2024-04-02T17:59:10Z)
Open3DIS: Open-Vocabulary 3D Instance Segmentation with 2D Mask Guidance [49.14140194332482]
Open3DISは3Dシーン内でのOpen-Vocabulary Instanceの問題に対処するために設計された新しいソリューションである。 3D環境内のオブジェクトは、さまざまな形状、スケール、色を示し、正確なインスタンスレベルの識別が困難なタスクとなる。
論文参考訳（メタデータ） (2023-12-17T10:07:03Z)
SAM-guided Graph Cut for 3D Instance Segmentation [60.75119991853605]
本稿では,3次元画像情報と多視点画像情報の同時利用による3次元インスタンス分割の課題に対処する。本稿では,3次元インスタンスセグメンテーションのための2次元セグメンテーションモデルを効果的に活用する新しい3D-to-2Dクエリフレームワークを提案する。本手法は,ロバストなセグメンテーション性能を実現し,異なるタイプのシーンにまたがる一般化を実現する。
論文参考訳（メタデータ） (2023-12-13T18:59:58Z)
UnScene3D: Unsupervised 3D Instance Segmentation for Indoor Scenes [35.38074724231105]
UnScene3Dは、クラスに依存しない屋内スキャンの3Dインスタンスセグメンテーションのための、完全に教師なしの3D学習アプローチである。高分解能な3次元データに基づく効率的な表現と学習を可能にする。提案手法は,最先端の教師なし3次元インスタンス分割法を平均精度300%以上で改善する。
論文参考訳（メタデータ） (2023-03-25T19:15:16Z)
Spatial Semantic Embedding Network: Fast 3D Instance Segmentation with Deep Metric Learning [5.699350798684963]
ディープラーニングを用いた3次元インスタンスセグメンテーションのための,単純かつ効率的なアルゴリズムを提案する。大規模シーンからの高レベルのインテリジェントなタスクに対して、3Dインスタンスセグメンテーションはオブジェクトの個々のインスタンスを認識する。我々は,ScanNet 3D インスタンス分割ベンチマークにおいて,我々のアルゴリズムの最先端性能をAPスコアで示す。
論文参考訳（メタデータ） (2020-07-07T02:17:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。