論文の概要: SAM2Point: Segment Any 3D as Videos in Zero-shot and Promptable Manners
- arxiv url: http://arxiv.org/abs/2408.16768v1
- Date: Thu, 29 Aug 2024 17:59:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 12:41:39.456174
- Title: SAM2Point: Segment Any 3D as Videos in Zero-shot and Promptable Manners
- Title(参考訳): SAM2Point:ゼロショットとプロンプト可能なマナーの映像として3Dをセグメンテーション
- Authors: Ziyu Guo, Renrui Zhang, Xiangyang Zhu, Chengzhuo Tong, Peng Gao, Chunyuan Li, Pheng-Ann Heng,
- Abstract要約: SAM2Pointは,Segment Anything Model 2 (SAM2) に適応した予備的な探索手法である。
本フレームワークは3Dポイントやボックス,マスクなど,さまざまなプロンプトタイプをサポートし,3Dオブジェクトや屋内シーン,疎外環境,生のLiDARなど,さまざまなシナリオを一般化することができる。
我々の知る限り、SAMの3Dにおける最も忠実な実装は、3Dセグメンテーションにおける将来の研究の出発点となるかもしれない。
- 参考スコア(独自算出の注目度): 87.76470518069338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce SAM2Point, a preliminary exploration adapting Segment Anything Model 2 (SAM 2) for zero-shot and promptable 3D segmentation. SAM2Point interprets any 3D data as a series of multi-directional videos, and leverages SAM 2 for 3D-space segmentation, without further training or 2D-3D projection. Our framework supports various prompt types, including 3D points, boxes, and masks, and can generalize across diverse scenarios, such as 3D objects, indoor scenes, outdoor environments, and raw sparse LiDAR. Demonstrations on multiple 3D datasets, e.g., Objaverse, S3DIS, ScanNet, Semantic3D, and KITTI, highlight the robust generalization capabilities of SAM2Point. To our best knowledge, we present the most faithful implementation of SAM in 3D, which may serve as a starting point for future research in promptable 3D segmentation. Online Demo: https://huggingface.co/spaces/ZiyuG/SAM2Point . Code: https://github.com/ZiyuGuo99/SAM2Point .
- Abstract(参考訳): 本稿では,ゼロショットおよびプロンプト可能な3次元セグメンテーションのためのセグメンテーションモデル2(SAM2)の予備探索であるSAM2Pointを紹介する。
SAM2Pointは、任意の3Dデータを一連の多方向ビデオとして解釈し、3D空間のセグメンテーションにSAM 2を活用する。
本フレームワークは3Dポイントやボックス,マスクなど,さまざまなプロンプトタイプをサポートし,3Dオブジェクトや屋内シーン,屋外環境,生のスパースLiDARなど,さまざまなシナリオを一般化することができる。
複数の3Dデータセット(例えば、Objaverse、S3DIS、ScanNet、Semantic3D、KITTI)のデモでは、SAM2Pointの堅牢な一般化機能を強調している。
我々の知る限り、SAMの3Dにおける最も忠実な実装は、3Dセグメンテーションにおける将来の研究の出発点となるかもしれない。
オンラインデモ:https://huggingface.co/spaces/ZiyuG/SAM2Point
コード:https://github.com/ZiyuGuo99/SAM2Point
関連論文リスト
- EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。
オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文 参考訳(メタデータ) (2024-08-21T17:57:06Z) - Point-SAM: Promptable 3D Segmentation Model for Point Clouds [25.98791840584803]
本稿では,点雲に着目した3次元プロンプト可能なセグメンテーションモデル(Point-SAM)を提案する。
提案手法では,SAMを3次元領域に拡張するトランスフォーマー方式を用いる。
本モデルは,室内および屋外のベンチマークにおいて,最先端のモデルよりも優れる。
論文 参考訳(メタデータ) (2024-06-25T17:28:03Z) - SAMPro3D: Locating SAM Prompts in 3D for Zero-Shot Scene Segmentation [26.207530327673748]
ゼロショット3D屋内シーンセグメンテーションのためのSAMPro3Dを提案する。
提案手法は,事前訓練されたセグメンション任意のモデル(SAM)を2次元フレームに適用することにより,3次元シーンをセグメント化する。
提案手法は,従来のゼロショットや完全教師付きアプローチよりも高品質で多様なセグメンテーションを実現する。
論文 参考訳(メタデータ) (2023-11-29T15:11:03Z) - 3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。
本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。
具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文 参考訳(メタデータ) (2023-07-24T17:59:02Z) - TomoSAM: a 3D Slicer extension using SAM for tomography segmentation [62.997667081978825]
TomoSAMは、最先端のSegment Anything Model(SAM)を3Dスライダに統合するために開発された。
SAMは、オブジェクトを識別し、ゼロショットで画像マスクを作成することができる、迅速なディープラーニングモデルである。
これらのツール間のシナジーは、トモグラフィや他のイメージング技術からの複雑な3Dデータセットのセグメンテーションに役立つ。
論文 参考訳(メタデータ) (2023-06-14T16:13:27Z) - SAM3D: Segment Anything in 3D Scenes [33.57040455422537]
本稿では,RGB画像のSegment-Anything Model(SAM)を利用して3次元点雲のマスクを予測できる新しいフレームワークを提案する。
RGB画像が配置された3Dシーンの点雲に対して、まずRGB画像のセグメンテーションマスクをSAMで予測し、2Dマスクを3Dポイントに投影する。
我々のアプローチはScanNetデータセットを用いて実験し、SAM3Dがトレーニングや微調整なしに合理的かつきめ細かな3Dセグメンテーション結果が得られることを示した。
論文 参考訳(メタデータ) (2023-06-06T17:59:51Z) - SAM3D: Zero-Shot 3D Object Detection via Segment Anything Model [59.04877271899894]
本稿では,SAMのゼロショット能力を3次元物体検出に適用することを検討する。
大規模オープンデータセット上でオブジェクトを検出し,有望な結果を得るために,SAMを用いたBEV処理パイプラインを提案する。
論文 参考訳(メタデータ) (2023-06-04T03:09:21Z) - Segment Anything in 3D with Radiance Fields [83.14130158502493]
本稿では,Segment Anything Model (SAM) を一般化して3次元オブジェクトをセグメント化する。
提案手法をSA3D, 略してSegment Anything in 3Dと呼ぶ。
実験では,SA3Dが様々なシーンに適応し,数秒で3Dセグメンテーションを実現することを示す。
論文 参考訳(メタデータ) (2023-04-24T17:57:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。