論文の概要: Segment Anything in 3D with NeRFs
- arxiv url: http://arxiv.org/abs/2304.12308v3
- Date: Thu, 1 Jun 2023 13:58:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 23:35:18.740565
- Title: Segment Anything in 3D with NeRFs
- Title(参考訳): NeRFによる3次元のセグメンテーション
- Authors: Jiazhong Cen, Zanwei Zhou, Jiemin Fang, Chen Yang, Wei Shen, Lingxi
Xie, Dongsheng Jiang, Xiaopeng Zhang, Qi Tian
- Abstract要約: 本稿では,Segment Anything Model (SAM) を一般化して3次元オブジェクトをセグメント化する。
我々は、マルチビュー2D画像を3D空間に接続する安価なオフザシェルフとして、Neural Radiance Field(NeRF)を使用している。
実験では,SA3Dが様々な場面に適応し,数分で3Dセグメンテーションを実現することを示す。
- 参考スコア(独自算出の注目度): 84.10452195444383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the Segment Anything Model (SAM) emerged as a powerful vision
foundation model which is capable to segment anything in 2D images. This paper
aims to generalize SAM to segment 3D objects. Rather than replicating the data
acquisition and annotation procedure which is costly in 3D, we design an
efficient solution, leveraging the Neural Radiance Field (NeRF) as a cheap and
off-the-shelf prior that connects multi-view 2D images to the 3D space. We
refer to the proposed solution as SA3D, for Segment Anything in 3D. It is only
required to provide a manual segmentation prompt (e.g., rough points) for the
target object in a single view, which is used to generate its 2D mask in this
view with SAM. Next, SA3D alternately performs mask inverse rendering and
cross-view self-prompting across various views to iteratively complete the 3D
mask of the target object constructed with voxel grids. The former projects the
2D mask obtained by SAM in the current view onto 3D mask with guidance of the
density distribution learned by the NeRF; The latter extracts reliable prompts
automatically as the input to SAM from the NeRF-rendered 2D mask in another
view. We show in experiments that SA3D adapts to various scenes and achieves 3D
segmentation within minutes. Our research offers a generic and efficient
methodology to lift a 2D vision foundation model to 3D, as long as the 2D model
can steadily address promptable segmentation across multiple views. The project
page is at https://jumpat.github.io/SA3D/.
- Abstract(参考訳): 最近,Segment Anything Model (SAM) は,任意のものを2次元画像に分割できる強力なビジョン基盤モデルとして登場した。
本稿では,SAMを3次元オブジェクトに分割する手法を提案する。
3Dでコストがかかるデータ取得とアノテーションの手順を複製するのではなく、我々はNeural Radiance Field(NeRF)を安価でオフザシェルフとして活用し、マルチビュー2D画像を3D空間に接続する効率的なソリューションを設計する。
提案したソリューションを,SA3D, セグメンテーション・アニーシング(Seegment Anything in 3D)と呼ぶ。
単一のビューでターゲットオブジェクトに対して手動のセグメンテーションプロンプト(例えば粗い点)を提供することが要求され、SAMでこのビューでその2Dマスクを生成するのに使用される。
次に、SA3Dは、ボクセルグリッドで構築されたターゲットオブジェクトの3Dマスクを反復的に完了するように、様々な視点でマスク逆レンダリングとクロスビューのセルフプロンプトを交互に行う。
前者は、SAMが取得した2Dマスクを現在の視点で3Dマスクに投影し、NeRFが学習した密度分布を誘導し、後者は、NeRFレンダリングされた2DマスクからのSAMへの入力として、信頼性の高いプロンプトを自動的に抽出する。
実験では,sa3dが様々なシーンに適応し,数分で3dセグメンテーションを実現することを示す。
我々の研究は、2Dモデルが複数のビューにまたがる高速なセグメンテーションに着実に対処できる限り、2D視覚基盤モデルを3Dに引き上げる汎用的で効率的な手法を提供する。
プロジェクトページはhttps://jumpat.github.io/SA3D/。
関連論文リスト
- XMask3D: Cross-modal Mask Reasoning for Open Vocabulary 3D Semantic Segmentation [72.12250272218792]
本稿では,3次元特徴量と2次元テキスト埋め込み空間とのより精巧なマスクレベルのアライメントを,クロスモーダルマスク推論フレームワークであるXMask3Dを用いて提案する。
我々は、3Dグローバルな特徴を暗黙の条件として、事前訓練された2D denoising UNetに統合し、セグメンテーションマスクの生成を可能にする。
生成した2Dマスクを用いて、マスクレベルの3D表現を視覚言語の特徴空間と整合させ、3D幾何埋め込みの開語彙能力を増大させる。
論文 参考訳(メタデータ) (2024-11-20T12:02:12Z) - SAM2Point: Segment Any 3D as Videos in Zero-shot and Promptable Manners [87.76470518069338]
SAM2Pointは,Segment Anything Model 2 (SAM2) に適応した予備的な探索手法である。
本フレームワークは3Dポイントやボックス,マスクなど,さまざまなプロンプトタイプをサポートし,3Dオブジェクトや屋内シーン,疎外環境,生のLiDARなど,さまざまなシナリオを一般化することができる。
我々の知る限り、SAMの3Dにおける最も忠実な実装は、3Dセグメンテーションにおける将来の研究の出発点となるかもしれない。
論文 参考訳(メタデータ) (2024-08-29T17:59:45Z) - EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。
オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文 参考訳(メタデータ) (2024-08-21T17:57:06Z) - Open-YOLO 3D: Towards Fast and Accurate Open-Vocabulary 3D Instance Segmentation [91.40798599544136]
高速かつ高精度なオープン語彙型3Dインスタンスセグメンテーション手法Open-YOLO 3Dを提案する。
オープンな3Dインスタンスセグメンテーションのために、マルチビューRGB画像からの2Dオブジェクト検出のみを効果的に活用する。
テキストプロンプトと3Dマスクとのマッチング性能は、2Dオブジェクト検出器でより高速に実現できることを実証的に見出した。
論文 参考訳(メタデータ) (2024-06-04T17:59:31Z) - SAMPro3D: Locating SAM Prompts in 3D for Zero-Shot Scene Segmentation [26.207530327673748]
ゼロショット3D屋内シーンセグメンテーションのためのSAMPro3Dを提案する。
提案手法は,事前訓練されたセグメンション任意のモデル(SAM)を2次元フレームに適用することにより,3次元シーンをセグメント化する。
提案手法は,従来のゼロショットや完全教師付きアプローチよりも高品質で多様なセグメンテーションを実現する。
論文 参考訳(メタデータ) (2023-11-29T15:11:03Z) - NTO3D: Neural Target Object 3D Reconstruction with Segment Anything [44.45486364580724]
NTO3Dは,新しい高品質なニューラルターゲットオブジェクト3D (NTO3D) 再構成法である。
まず、SAMの多視点2Dセグメンテーションマスクを統一された3D占有領域に引き上げるための新しい戦略を提案する。
3D占有領域は2次元空間に投影され、SAMの新しいプロンプトを生成する。
NTO3DはSAMの2Dマスクと特徴を3Dニューラルフィールドに持ち上げ、高品質なニューラルターゲットオブジェクト3D再構成を行う。
論文 参考訳(メタデータ) (2023-09-22T11:02:57Z) - SAM3D: Segment Anything in 3D Scenes [33.57040455422537]
本稿では,RGB画像のSegment-Anything Model(SAM)を利用して3次元点雲のマスクを予測できる新しいフレームワークを提案する。
RGB画像が配置された3Dシーンの点雲に対して、まずRGB画像のセグメンテーションマスクをSAMで予測し、2Dマスクを3Dポイントに投影する。
我々のアプローチはScanNetデータセットを用いて実験し、SAM3Dがトレーニングや微調整なしに合理的かつきめ細かな3Dセグメンテーション結果が得られることを示した。
論文 参考訳(メタデータ) (2023-06-06T17:59:51Z) - Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud
Pre-training [65.75399500494343]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
自己監督型3次元点雲事前学習のための2D-3DジョイントMAEフレームワークであるJoint-MAEを提案する。
論文 参考訳(メタデータ) (2023-02-27T17:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。