論文の概要: SAMPro3D: Locating SAM Prompts in 3D for Zero-Shot Instance Segmentation
- arxiv url: http://arxiv.org/abs/2311.17707v2
- Date: Tue, 04 Feb 2025 11:40:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:54:51.519846
- Title: SAMPro3D: Locating SAM Prompts in 3D for Zero-Shot Instance Segmentation
- Title(参考訳): SAMPro3D: ゼロショットインスタンスセグメンテーションのために3DでSAM Promptを配置する
- Authors: Mutian Xu, Xingyilang Yin, Lingteng Qiu, Yang Liu, Xin Tong, Xiaoguang Han,
- Abstract要約: 3DシーンのゼロショットインスタンスセグメンテーションにSAMPro3Dを導入する。
提案手法は,2次元フレームに事前訓練されたセグメンション任意のモデル(SAM)を適用することで,3次元インスタンスをセグメント化する。
提案手法は,従来のゼロショットや完全教師付きアプローチと比較して,同等あるいは優れた性能を実現する。
- 参考スコア(独自算出の注目度): 24.733049281032272
- License:
- Abstract: We introduce SAMPro3D for zero-shot instance segmentation of 3D scenes. Given the 3D point cloud and multiple posed RGB-D frames of 3D scenes, our approach segments 3D instances by applying the pretrained Segment Anything Model (SAM) to 2D frames. Our key idea involves locating SAM prompts in 3D to align their projected pixel prompts across frames, ensuring the view consistency of SAM-predicted masks. Moreover, we suggest selecting prompts from the initial set guided by the information of SAM-predicted masks across all views, which enhances the overall performance. We further propose to consolidate different prompts if they are segmenting different surface parts of the same 3D instance, bringing a more comprehensive segmentation. Notably, our method does not require any additional training. Extensive experiments on diverse benchmarks show that our method achieves comparable or better performance compared to previous zero-shot or fully supervised approaches, and in many cases surpasses human annotations. Furthermore, since our fine-grained predictions often lack annotations in available datasets, we present ScanNet200-Fine50 test data which provides fine-grained annotations on 50 scenes from ScanNet200 dataset. The project page can be accessed at https://mutianxu.github.io/sampro3d/.
- Abstract(参考訳): 3DシーンのゼロショットインスタンスセグメンテーションにSAMPro3Dを導入する。
3次元点雲と複数の3次元シーンのRGB-Dフレームを考えると、事前訓練されたSegment Anything Model(SAM)を2次元フレームに適用することにより、3Dインスタンスを分割する。
私たちのキーとなるアイデアは、SAMプロンプトを3Dで配置して、フレーム間で投影されたピクセルプロンプトを調整し、SAM予測マスクの視界の整合性を確保することです。
さらに,すべてのビューにおいてSAM予測マスクの情報によって導かれる初期セットからのプロンプトの選択を提案する。
さらに、同一の3Dインスタンスの異なる表面部分を分割する場合に異なるプロンプトを統合することを提案し、より包括的なセグメンテーションをもたらす。
特に、我々の方法は追加の訓練を必要としない。
多様なベンチマーク実験により,従来のゼロショットや完全教師付きアプローチと比較して,我々の手法は同等あるいは優れた性能を達成でき,多くの場合,人間のアノテーションを超越していることがわかった。
さらに、粒度の細かい予測は利用可能なデータセットにアノテーションを欠くことが多いので、ScanNet200データセットから50のシーンで詳細なアノテーションを提供するScanNet200-Fine50テストデータを提示します。
プロジェクトページはhttps://mutianxu.github.io/sampro3d/でアクセスできます。
関連論文リスト
- SAM2Point: Segment Any 3D as Videos in Zero-shot and Promptable Manners [87.76470518069338]
SAM2Pointは,Segment Anything Model 2 (SAM2) に適応した予備的な探索手法である。
本フレームワークは3Dポイントやボックス,マスクなど,さまざまなプロンプトタイプをサポートし,3Dオブジェクトや屋内シーン,疎外環境,生のLiDARなど,さまざまなシナリオを一般化することができる。
我々の知る限り、SAMの3Dにおける最も忠実な実装は、3Dセグメンテーションにおける将来の研究の出発点となるかもしれない。
論文 参考訳(メタデータ) (2024-08-29T17:59:45Z) - EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。
オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文 参考訳(メタデータ) (2024-08-21T17:57:06Z) - Point-SAM: Promptable 3D Segmentation Model for Point Clouds [25.98791840584803]
本稿では,ポイントクラウドに着目した3Dプロンプト可能なセグメンテーションモデルであるPoint-SAMを提案する。
我々は、SAMを3Dドメインに拡張する、ポイントクラウドに適した効率的なトランスフォーマーベースのアーキテクチャを採用している。
次に、データエンジンを導入し、2D SAMから大規模に部分レベルおよびオブジェクトレベルの擬似ラベルを生成することにより、2D SAMから豊富な知識を抽出する。
論文 参考訳(メタデータ) (2024-06-25T17:28:03Z) - Open-YOLO 3D: Towards Fast and Accurate Open-Vocabulary 3D Instance Segmentation [91.40798599544136]
高速かつ高精度なオープン語彙型3Dインスタンスセグメンテーション手法Open-YOLO 3Dを提案する。
オープンな3Dインスタンスセグメンテーションのために、マルチビューRGB画像からの2Dオブジェクト検出のみを効果的に活用する。
テキストプロンプトと3Dマスクとのマッチング性能は、2Dオブジェクト検出器でより高速に実現できることを実証的に見出した。
論文 参考訳(メタデータ) (2024-06-04T17:59:31Z) - SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。
我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。
ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-12-17T09:05:47Z) - SAM3D: Segment Anything in 3D Scenes [33.57040455422537]
本稿では,RGB画像のSegment-Anything Model(SAM)を利用して3次元点雲のマスクを予測できる新しいフレームワークを提案する。
RGB画像が配置された3Dシーンの点雲に対して、まずRGB画像のセグメンテーションマスクをSAMで予測し、2Dマスクを3Dポイントに投影する。
我々のアプローチはScanNetデータセットを用いて実験し、SAM3Dがトレーニングや微調整なしに合理的かつきめ細かな3Dセグメンテーション結果が得られることを示した。
論文 参考訳(メタデータ) (2023-06-06T17:59:51Z) - Personalize Segment Anything Model with One Shot [52.54453744941516]
我々は,Segment Anything Model (SAM) のためのトレーニング不要なパーソナライズ手法を提案する。
PerSAMは、参照マスクを持つ1つのイメージしか持たないため、最初にターゲットのコンセプトを以前のロケーションでローカライズする。
PerSAMは、ターゲット誘導された注意、ターゲットセマンティックなプロンプト、そしてカスケードされたポストリファインメントという3つのテクニックを通じて、他の画像やビデオにセグメントする。
論文 参考訳(メタデータ) (2023-05-04T17:59:36Z) - Segment Anything in 3D with Radiance Fields [83.14130158502493]
本稿では,Segment Anything Model (SAM) を一般化して3次元オブジェクトをセグメント化する。
提案手法をSA3D, 略してSegment Anything in 3Dと呼ぶ。
実験では,SA3Dが様々なシーンに適応し,数秒で3Dセグメンテーションを実現することを示す。
論文 参考訳(メタデータ) (2023-04-24T17:57:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。