論文の概要: Segment Anything in 3D with NeRFs
- arxiv url: http://arxiv.org/abs/2304.12308v2
- Date: Wed, 26 Apr 2023 05:47:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-27 10:41:24.187224
- Title: Segment Anything in 3D with NeRFs
- Title(参考訳): NeRFによる3次元のセグメンテーション
- Authors: Jiazhong Cen, Zanwei Zhou, Jiemin Fang, Wei Shen, Lingxi Xie,
Dongsheng Jiang, Xiaopeng Zhang, Qi Tian
- Abstract要約: Segment Anything in 3D, Name SA3Dを提案する。
ニューラル放射場(NeRF)モデルが与えられたSA3Dでは、ユーザーはワンショット手動プロンプトのみで、任意の対象物の3Dセグメンテーション結果を得ることができる。
実験では, 異なる場面におけるSA3Dの有効性を実証し, 3次元シーン知覚におけるSAMの可能性を強調した。
- 参考スコア(独自算出の注目度): 86.20657962556916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Segment Anything Model (SAM) has demonstrated its effectiveness in
segmenting any object/part in various 2D images, yet its ability for 3D has not
been fully explored. The real world is composed of numerous 3D scenes and
objects. Due to the scarcity of accessible 3D data and high cost of its
acquisition and annotation, lifting SAM to 3D is a challenging but valuable
research avenue. With this in mind, we propose a novel framework to Segment
Anything in 3D, named SA3D. Given a neural radiance field (NeRF) model, SA3D
allows users to obtain the 3D segmentation result of any target object via only
one-shot manual prompting in a single rendered view. With input prompts, SAM
cuts out the target object from the according view. The obtained 2D
segmentation mask is projected onto 3D mask grids via density-guided inverse
rendering. 2D masks from other views are then rendered, which are mostly
uncompleted but used as cross-view self-prompts to be fed into SAM again.
Complete masks can be obtained and projected onto mask grids. This procedure is
executed via an iterative manner while accurate 3D masks can be finally
learned. SA3D can adapt to various radiance fields effectively without any
additional redesigning. The entire segmentation process can be completed in
approximately two minutes without any engineering optimization. Our experiments
demonstrate the effectiveness of SA3D in different scenes, highlighting the
potential of SAM in 3D scene perception. The project page is at
https://jumpat.github.io/SA3D/.
- Abstract(参考訳): segment anything model (sam) は、様々な2d画像における任意のオブジェクト/パーツのセグメント化に有効性を示しているが、3dの能力は十分に検討されていない。
現実世界は多くの3Dシーンとオブジェクトで構成されています。
アクセス可能な3Dデータの不足と、その取得とアノテーションの高コストのため、SAMを3Dに持ち上げることは、難しいが価値のある研究道である。
これを念頭に、我々はSA3Dという3Dのセグメンテーションのための新しいフレームワークを提案する。
neural radiance field(nerf)モデルが与えられた場合、sa3dは、単一のレンダリングビューでプロンプトするワンショットマニュアルだけで、任意のターゲットオブジェクトの3dセグメンテーション結果を得ることができる。
入力プロンプトによって、samは、そのビューからターゲットオブジェクトを除外する。
得られた2dセグメンテーションマスクは密度誘導逆レンダリングにより3dマスクグリッドに投影される。
他のビューからの2Dマスクはレンダリングされ、ほとんど未完成だが、SAMに再び入力するためにクロスビューのセルフプロンプトとして使用される。
完全なマスクは、マスクグリッド上で取得および投影することができる。
この手順は反復的に行われ、正確な3dマスクは最終的に学べる。
SA3Dは、追加の再設計なしに、様々な放射場に効果的に適応することができる。
セグメンテーションプロセス全体は、エンジニアリング最適化なしで約2分で完了することができる。
実験では, 異なる場面におけるSA3Dの有効性を実証し, 3次元シーン知覚におけるSAMの可能性を強調した。
プロジェクトページはhttps://jumpat.github.io/SA3D/。
関連論文リスト
- SAM-guided Graph Cut for 3D Instance Segmentation [63.797612618531346]
本稿では,3次元画像情報と多視点画像情報の同時利用による3次元インスタンス分割の課題に対処する。
本稿では,3次元インスタンスセグメンテーションのための2次元セグメンテーションモデルを効果的に活用する新しい3D-to-2Dクエリフレームワークを提案する。
本手法は,ロバストなセグメンテーション性能を実現し,異なるタイプのシーンにまたがる一般化を実現する。
論文 参考訳(メタデータ) (2023-12-13T18:59:58Z) - SAMPro3D: Locating SAM Prompts in 3D for Zero-Shot Scene Segmentation [26.207530327673748]
ゼロショット3D屋内シーンセグメンテーションのためのSAMPro3Dを提案する。
提案手法は,事前訓練されたセグメンション任意のモデル(SAM)を2次元フレームに適用することにより,3次元シーンをセグメント化する。
提案手法は,従来のゼロショットや完全教師付きアプローチよりも高品質で多様なセグメンテーションを実現する。
論文 参考訳(メタデータ) (2023-11-29T15:11:03Z) - NTO3D: Neural Target Object 3D Reconstruction with Segment Anything [44.45486364580724]
NTO3Dは,新しい高品質なニューラルターゲットオブジェクト3D (NTO3D) 再構成法である。
まず、SAMの多視点2Dセグメンテーションマスクを統一された3D占有領域に引き上げるための新しい戦略を提案する。
3D占有領域は2次元空間に投影され、SAMの新しいプロンプトを生成する。
NTO3DはSAMの2Dマスクと特徴を3Dニューラルフィールドに持ち上げ、高品質なニューラルターゲットオブジェクト3D再構成を行う。
論文 参考訳(メタデータ) (2023-09-22T11:02:57Z) - Tracking Objects with 3D Representation from Videos [57.641129788552675]
P3DTrackと呼ばれる新しい2次元多目的追跡パラダイムを提案する。
モノクロビデオにおける擬似3Dオブジェクトラベルからの3次元オブジェクト表現学習により,P3DTrackと呼ばれる新しい2次元MOTパラダイムを提案する。
論文 参考訳(メタデータ) (2023-06-08T17:58:45Z) - SAM3D: Segment Anything in 3D Scenes [33.57040455422537]
本稿では,RGB画像のSegment-Anything Model(SAM)を利用して3次元点雲のマスクを予測できる新しいフレームワークを提案する。
RGB画像が配置された3Dシーンの点雲に対して、まずRGB画像のセグメンテーションマスクをSAMで予測し、2Dマスクを3Dポイントに投影する。
我々のアプローチはScanNetデータセットを用いて実験し、SAM3Dがトレーニングや微調整なしに合理的かつきめ細かな3Dセグメンテーション結果が得られることを示した。
論文 参考訳(メタデータ) (2023-06-06T17:59:51Z) - UnScene3D: Unsupervised 3D Instance Segmentation for Indoor Scenes [35.38074724231105]
UnScene3Dは、クラスに依存しない屋内スキャンの3Dインスタンスセグメンテーションのための、完全に教師なしの3D学習アプローチである。
高分解能な3次元データに基づく効率的な表現と学習を可能にする。
提案手法は,最先端の教師なし3次元インスタンス分割法を平均精度300%以上で改善する。
論文 参考訳(メタデータ) (2023-03-25T19:15:16Z) - Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud
Pre-training [65.75399500494343]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
自己監督型3次元点雲事前学習のための2D-3DジョイントMAEフレームワークであるJoint-MAEを提案する。
論文 参考訳(メタデータ) (2023-02-27T17:56:18Z) - ONeRF: Unsupervised 3D Object Segmentation from Multiple Views [59.445957699136564]
OneRFは、追加のマニュアルアノテーションなしで、マルチビューのRGBイメージから3Dのオブジェクトインスタンスを自動的に分割し、再構成する手法である。
セグメント化された3Dオブジェクトは、様々な3Dシーンの編集と新しいビューレンダリングを可能にする別個のNeRF(Neural Radiance Fields)を使用して表現される。
論文 参考訳(メタデータ) (2022-11-22T06:19:37Z) - Gait Recognition in the Wild with Dense 3D Representations and A
Benchmark [86.68648536257588]
既存の歩行認識の研究は、制約されたシーンにおける人間の体のシルエットや骨格のような2D表現によって支配されている。
本稿では,野生における歩行認識のための高密度な3次元表現の探索を目的とする。
大規模な3D表現に基づく歩行認識データセットGait3Dを構築した。
論文 参考訳(メタデータ) (2022-04-06T03:54:06Z) - Virtual Multi-view Fusion for 3D Semantic Segmentation [11.259694096475766]
仮想ビューにより,従来のマルチビュー手法よりも2次元セマンティックセグメンテーションネットワークを効果的に学習できることを示す。
画素ごとの2次元予測を3次元面に集約すると,仮想多視点融合法により,より優れた3次元セマンティックセマンティックセマンティクス結果が得られる。
論文 参考訳(メタデータ) (2020-07-26T14:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。