論文の概要: NTO3D: Neural Target Object 3D Reconstruction with Segment Anything
- arxiv url: http://arxiv.org/abs/2309.12790v2
- Date: Sat, 30 Mar 2024 06:36:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-02 15:34:46.269083
- Title: NTO3D: Neural Target Object 3D Reconstruction with Segment Anything
- Title(参考訳): NTO3D:Segment Anythingを用いたニューラルターゲットオブジェクト3D再構成
- Authors: Xiaobao Wei, Renrui Zhang, Jiarui Wu, Jiaming Liu, Ming Lu, Yandong Guo, Shanghang Zhang,
- Abstract要約: NTO3Dは,新しい高品質なニューラルターゲットオブジェクト3D (NTO3D) 再構成法である。
まず、SAMの多視点2Dセグメンテーションマスクを統一された3D占有領域に引き上げるための新しい戦略を提案する。
3D占有領域は2次元空間に投影され、SAMの新しいプロンプトを生成する。
NTO3DはSAMの2Dマスクと特徴を3Dニューラルフィールドに持ち上げ、高品質なニューラルターゲットオブジェクト3D再構成を行う。
- 参考スコア(独自算出の注目度): 44.45486364580724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural 3D reconstruction from multi-view images has recently attracted increasing attention from the community. Existing methods normally learn a neural field for the whole scene, while it is still under-explored how to reconstruct a target object indicated by users. Considering the Segment Anything Model (SAM) has shown effectiveness in segmenting any 2D images, in this paper, we propose NTO3D, a novel high-quality Neural Target Object 3D (NTO3D) reconstruction method, which leverages the benefits of both neural field and SAM. We first propose a novel strategy to lift the multi-view 2D segmentation masks of SAM into a unified 3D occupancy field. The 3D occupancy field is then projected into 2D space and generates the new prompts for SAM. This process is iterative until convergence to separate the target object from the scene. After this, we then lift the 2D features of the SAM encoder into a 3D feature field in order to improve the reconstruction quality of the target object. NTO3D lifts the 2D masks and features of SAM into the 3D neural field for high-quality neural target object 3D reconstruction. We conduct detailed experiments on several benchmark datasets to demonstrate the advantages of our method. The code will be available at: https://github.com/ucwxb/NTO3D.
- Abstract(参考訳): マルチビュー画像からのニューラル3D再構成は,最近,コミュニティの注目を集めている。
既存の方法は、通常、シーン全体のニューラルネットワークを学習するが、ユーザによって示されるターゲットオブジェクトの再構築方法はまだ未検討である。
SAM(Segment Anything Model)が任意の2次元画像のセグメンテーションに有効であることを考慮し、我々はNTO3Dという新しい高品質なニューラルターゲットオブジェクト3D(NTO3D)再構成法を提案し、ニューラルフィールドとSAMの両方の利点を生かした。
まず、SAMの多視点2Dセグメンテーションマスクを統一された3D占有領域に引き上げるための新しい戦略を提案する。
3D占有領域は2次元空間に投影され、SAMの新しいプロンプトを生成する。
このプロセスは、対象のオブジェクトをシーンから分離するために収束するまで反復的です。
その後,SAMエンコーダの2次元特徴を3次元特徴場に引き上げ,対象物体の再現性を向上させる。
NTO3DはSAMの2Dマスクと特徴を3Dニューラルフィールドに持ち上げ、高品質なニューラルターゲットオブジェクト3D再構成を行う。
提案手法の利点を実証するため,いくつかのベンチマークデータセットの詳細な実験を行った。
コードは、https://github.com/ucwxb/NTO3D.comで入手できる。
関連論文リスト
- ToNNO: Tomographic Reconstruction of a Neural Network's Output for Weakly Supervised Segmentation of 3D Medical Images [6.035125735474387]
ToNNOは、ニューラルネットワークの出力のトモグラフィー再構成に基づいている。
入力された3Dボリュームから異なる角度のスライスを抽出し、これらのスライスを2Dエンコーダに供給し、エンコーダの予測の3Dヒートマップを再構成するために逆ラドン変換を適用する。
本研究では、2Dエンコーダを訓練し、関心領域を含むスライスに対して高い値を出力することにより、医用画像セグメンテーションの弱制御に適用する。
論文 参考訳(メタデータ) (2024-04-19T11:27:56Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - MonoNeRD: NeRF-like Representations for Monocular 3D Object Detection [31.58403386994297]
我々は,高密度な3次元形状と占有度を推定できる新しい検出フレームワークMonoNeRDを提案する。
具体的には、SDF(Signed Distance Function)を用いてシーンをモデル化し、密集した3D表現の作成を容易にする。
我々の知る限り、この研究は初めてM3Dのボリュームレンダリングを導入し、画像に基づく3D知覚のための暗黙的な再構築の可能性を示す。
論文 参考訳(メタデータ) (2023-08-18T09:39:52Z) - SAM3D: Segment Anything in 3D Scenes [33.57040455422537]
本稿では,RGB画像のSegment-Anything Model(SAM)を利用して3次元点雲のマスクを予測できる新しいフレームワークを提案する。
RGB画像が配置された3Dシーンの点雲に対して、まずRGB画像のセグメンテーションマスクをSAMで予測し、2Dマスクを3Dポイントに投影する。
我々のアプローチはScanNetデータセットを用いて実験し、SAM3Dがトレーニングや微調整なしに合理的かつきめ細かな3Dセグメンテーション結果が得られることを示した。
論文 参考訳(メタデータ) (2023-06-06T17:59:51Z) - SAM3D: Zero-Shot 3D Object Detection via Segment Anything Model [59.04877271899894]
本稿では,SAMのゼロショット能力を3次元物体検出に適用することを検討する。
大規模オープンデータセット上でオブジェクトを検出し,有望な結果を得るために,SAMを用いたBEV処理パイプラインを提案する。
論文 参考訳(メタデータ) (2023-06-04T03:09:21Z) - Segment Anything in 3D with Radiance Fields [83.14130158502493]
本稿では,Segment Anything Model (SAM) を一般化して3次元オブジェクトをセグメント化する。
提案手法をSA3D, 略してSegment Anything in 3Dと呼ぶ。
実験では,SA3Dが様々なシーンに適応し,数秒で3Dセグメンテーションを実現することを示す。
論文 参考訳(メタデータ) (2023-04-24T17:57:15Z) - Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。
提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文 参考訳(メタデータ) (2023-04-19T16:39:51Z) - Neural Volumetric Object Selection [126.04480613166194]
マルチプレーン画像(MPI)やニューラルレイディアンスフィールド(NeRF)のような,神経体積の3次元表現における物体の選択手法を提案する。
提案手法では,前景と背景の2次元ユーザを1つの視点で記述し,対象物の3次元セグメンテーションを自動的に推定する。
論文 参考訳(メタデータ) (2022-05-30T08:55:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。