論文の概要: SAMPro3D: Locating SAM Prompts in 3D for Zero-Shot Scene Segmentation
- arxiv url: http://arxiv.org/abs/2311.17707v1
- Date: Wed, 29 Nov 2023 15:11:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 20:56:39.102091
- Title: SAMPro3D: Locating SAM Prompts in 3D for Zero-Shot Scene Segmentation
- Title(参考訳): SAMPro3D:ゼロショットシーンセグメンテーションのためのSAMプロンプトを3Dで配置する
- Authors: Mutian Xu, Xingyilang Yin, Lingteng Qiu, Yang Liu, Xin Tong, Xiaoguang
Han
- Abstract要約: ゼロショット3D屋内シーンセグメンテーションのためのSAMPro3Dを提案する。
提案手法は,事前訓練されたセグメンション任意のモデル(SAM)を2次元フレームに適用することにより,3次元シーンをセグメント化する。
提案手法は,従来のゼロショットや完全教師付きアプローチよりも高品質で多様なセグメンテーションを実現する。
- 参考スコア(独自算出の注目度): 26.207530327673748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce SAMPro3D for zero-shot 3D indoor scene segmentation. Given the
3D point cloud and multiple posed 2D frames of 3D scenes, our approach segments
3D scenes by applying the pretrained Segment Anything Model (SAM) to 2D frames.
Our key idea involves locating 3D points in scenes as natural 3D prompts to
align their projected pixel prompts across frames, ensuring frame-consistency
in both pixel prompts and their SAM-predicted masks. Moreover, we suggest
filtering out low-quality 3D prompts based on feedback from all 2D frames, for
enhancing segmentation quality. We also propose to consolidate different 3D
prompts if they are segmenting the same object, bringing a more comprehensive
segmentation. Notably, our method does not require any additional training on
domain-specific data, enabling us to preserve the zero-shot power of SAM.
Extensive qualitative and quantitative results show that our method
consistently achieves higher quality and more diverse segmentation than
previous zero-shot or fully supervised approaches, and in many cases even
surpasses human-level annotations. The project page can be accessed at
https://mutianxu.github.io/sampro3d/.
- Abstract(参考訳): ゼロショット3D屋内シーンセグメンテーションのためのSAMPro3Dを提案する。
3次元点雲と複数の3次元シーンの2次元フレームが与えられた場合、我々のアプローチは2次元フレームに事前訓練されたセグメンション・アシング・モデル(SAM)を適用して3次元シーンを分割する。
私たちのキーとなるアイデアは、自然の3Dプロンプトが投影されたピクセルプロンプトをフレームに合わせるように3Dポイントを配置することで、ピクセルプロンプトとSAM予測マスクのフレーム一貫性を確保することです。
さらに,全ての2次元フレームからのフィードバックに基づいて低品質な3Dプロンプトをフィルタリングし,セグメンテーション品質を向上させることを提案する。
また、同じオブジェクトをセグメント化する場合に異なる3Dプロンプトを統合することを提案し、より包括的なセグメンテーションを実現する。
特に,本手法はドメイン固有データに対する追加の訓練を必要としないため,SAMのゼロショットパワーを維持できる。
その結果,従来のゼロショットや完全教師付きアプローチよりも高品質で多様なセグメンテーションを実現することができ,多くの場合,人間レベルのアノテーションを超えていることがわかった。
プロジェクトページはhttps://mutianxu.github.io/sampro3d/からアクセスできる。
関連論文リスト
- SAM2Point: Segment Any 3D as Videos in Zero-shot and Promptable Manners [87.76470518069338]
SAM2Pointは,Segment Anything Model 2 (SAM2) に適応した予備的な探索手法である。
本フレームワークは3Dポイントやボックス,マスクなど,さまざまなプロンプトタイプをサポートし,3Dオブジェクトや屋内シーン,疎外環境,生のLiDARなど,さまざまなシナリオを一般化することができる。
我々の知る限り、SAMの3Dにおける最も忠実な実装は、3Dセグメンテーションにおける将来の研究の出発点となるかもしれない。
論文 参考訳(メタデータ) (2024-08-29T17:59:45Z) - EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。
オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文 参考訳(メタデータ) (2024-08-21T17:57:06Z) - Point-SAM: Promptable 3D Segmentation Model for Point Clouds [25.98791840584803]
本稿では,ポイントクラウドに着目した3Dプロンプト可能なセグメンテーションモデルであるPoint-SAMを提案する。
我々は、SAMを3Dドメインに拡張する、ポイントクラウドに適した効率的なトランスフォーマーベースのアーキテクチャを採用している。
次に、データエンジンを導入し、2D SAMから大規模に部分レベルおよびオブジェクトレベルの擬似ラベルを生成することにより、2D SAMから豊富な知識を抽出する。
論文 参考訳(メタデータ) (2024-06-25T17:28:03Z) - Open-YOLO 3D: Towards Fast and Accurate Open-Vocabulary 3D Instance Segmentation [91.40798599544136]
高速かつ高精度なオープン語彙型3Dインスタンスセグメンテーション手法Open-YOLO 3Dを提案する。
オープンな3Dインスタンスセグメンテーションのために、マルチビューRGB画像からの2Dオブジェクト検出のみを効果的に活用する。
テキストプロンプトと3Dマスクとのマッチング性能は、2Dオブジェクト検出器でより高速に実現できることを実証的に見出した。
論文 参考訳(メタデータ) (2024-06-04T17:59:31Z) - SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。
我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。
ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-12-17T09:05:47Z) - SAM3D: Segment Anything in 3D Scenes [33.57040455422537]
本稿では,RGB画像のSegment-Anything Model(SAM)を利用して3次元点雲のマスクを予測できる新しいフレームワークを提案する。
RGB画像が配置された3Dシーンの点雲に対して、まずRGB画像のセグメンテーションマスクをSAMで予測し、2Dマスクを3Dポイントに投影する。
我々のアプローチはScanNetデータセットを用いて実験し、SAM3Dがトレーニングや微調整なしに合理的かつきめ細かな3Dセグメンテーション結果が得られることを示した。
論文 参考訳(メタデータ) (2023-06-06T17:59:51Z) - Personalize Segment Anything Model with One Shot [52.54453744941516]
我々は,Segment Anything Model (SAM) のためのトレーニング不要なパーソナライズ手法を提案する。
PerSAMは、参照マスクを持つ1つのイメージしか持たないため、最初にターゲットのコンセプトを以前のロケーションでローカライズする。
PerSAMは、ターゲット誘導された注意、ターゲットセマンティックなプロンプト、そしてカスケードされたポストリファインメントという3つのテクニックを通じて、他の画像やビデオにセグメントする。
論文 参考訳(メタデータ) (2023-05-04T17:59:36Z) - Segment Anything in 3D with Radiance Fields [83.14130158502493]
本稿では,Segment Anything Model (SAM) を一般化して3次元オブジェクトをセグメント化する。
提案手法をSA3D, 略してSegment Anything in 3Dと呼ぶ。
実験では,SA3Dが様々なシーンに適応し,数秒で3Dセグメンテーションを実現することを示す。
論文 参考訳(メタデータ) (2023-04-24T17:57:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。