論文の概要: Decomposing 3D Scenes into Objects via Unsupervised Volume Segmentation
- arxiv url: http://arxiv.org/abs/2104.01148v1
- Date: Fri, 2 Apr 2021 16:59:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-05 14:06:06.023763
- Title: Decomposing 3D Scenes into Objects via Unsupervised Volume Segmentation
- Title(参考訳): 教師なしボリュームセグメンテーションによる3dシーンのオブジェクトへの分解
- Authors: Karl Stelzner, Kristian Kersting, Adam R. Kosiorek
- Abstract要約: ニューラルラジアンスフィールド(NeRF)の集合として表現された3Dモデルにシーンの単一のイメージを変換する手法であるObSuRFを紹介します。
RGB-D入力でのNeRFのトレーニングを可能にする新しい損失を導き出し、より計算的に学習を効率化します。
- 参考スコア(独自算出の注目度): 26.868351498722884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present ObSuRF, a method which turns a single image of a scene into a 3D
model represented as a set of Neural Radiance Fields (NeRFs), with each NeRF
corresponding to a different object. A single forward pass of an encoder
network outputs a set of latent vectors describing the objects in the scene.
These vectors are used independently to condition a NeRF decoder, defining the
geometry and appearance of each object. We make learning more computationally
efficient by deriving a novel loss, which allows training NeRFs on RGB-D inputs
without explicit ray marching. After confirming that the model performs equal
or better than state of the art on three 2D image segmentation benchmarks, we
apply it to two multi-object 3D datasets: A multiview version of CLEVR, and a
novel dataset in which scenes are populated by ShapeNet models. We find that
after training ObSuRF on RGB-D views of training scenes, it is capable of not
only recovering the 3D geometry of a scene depicted in a single input image,
but also to segment it into objects, despite receiving no supervision in that
regard.
- Abstract(参考訳): 本稿では,シーンの1つの画像をニューラルネットワークの放射場(nerfs)の集合として表現した3dモデルに変換する手法であるobsurfを提案する。
エンコーダネットワークの1つのフォワードパスは、シーン内のオブジェクトを記述する潜在ベクトルのセットを出力する。
これらのベクトルはnerfデコーダの条件付けに独立に使われ、各オブジェクトの形状と外観を定義する。
我々は、新しい損失を導出することで学習をより効率的にし、明示的な光線マーチングなしでRGB-D入力上のNeRFを訓練することができる。
3つの2dイメージセグメンテーションベンチマークで、モデルがアートの状態を同等かそれ以上に評価した後に、それを2つの多目的3dデータセットに適用する。
トレーニングシーンのRGB-DビューでObSuRFをトレーニングした後、単一の入力画像に描かれたシーンの3次元幾何を復元するだけでなく、その点に関して何の監督も受けずにオブジェクトに分割することが可能になる。
関連論文リスト
- Instance Neural Radiance Field [62.152611795824185]
本稿では,最初の学習ベースNeRF3Dインスタンスセグメンテーションパイプラインについて述べる。
我々は、NeRFのサンプルボリューム特徴に基づいて、3Dプロポーザルベースのマスク予測ネットワークを採用する。
また、本手法は、そのような結果を純粋推論で最初に達成した手法の一つである。
論文 参考訳(メタデータ) (2023-04-10T05:49:24Z) - SPIn-NeRF: Multiview Segmentation and Perceptual Inpainting with Neural
Radiance Fields [26.296017756560467]
3Dでは、解は複数のビューで一貫し、幾何学的に有効でなければならない。
本稿では,これらの課題に対処する新しい3Dインペイント手法を提案する。
我々はまず,NeRF法と2次元セグメンテーション法と比較して,マルチビューセグメンテーションにおけるアプローチの優位性を実証する。
論文 参考訳(メタデータ) (2022-11-22T13:14:50Z) - ONeRF: Unsupervised 3D Object Segmentation from Multiple Views [59.445957699136564]
OneRFは、追加のマニュアルアノテーションなしで、マルチビューのRGBイメージから3Dのオブジェクトインスタンスを自動的に分割し、再構成する手法である。
セグメント化された3Dオブジェクトは、様々な3Dシーンの編集と新しいビューレンダリングを可能にする別個のNeRF(Neural Radiance Fields)を使用して表現される。
論文 参考訳(メタデータ) (2022-11-22T06:19:37Z) - One-Shot Neural Fields for 3D Object Understanding [112.32255680399399]
ロボット工学のための統一的でコンパクトなシーン表現を提案する。
シーン内の各オブジェクトは、幾何学と外観をキャプチャする潜在コードによって描写される。
この表現は、新しいビューレンダリングや3D再構成、安定した把握予測といった様々なタスクのためにデコードできる。
論文 参考訳(メタデータ) (2022-10-21T17:33:14Z) - Neural Feature Fusion Fields: 3D Distillation of Self-Supervised 2D
Image Representations [92.88108411154255]
本稿では,3次元シーンとして再構成可能な複数画像の解析に後者を適用する際に,高密度な2次元画像特徴抽出器を改善する手法を提案する。
本手法は,手動ラベルを使わずに,シーン固有のニューラルネットワークの文脈における意味理解を可能にするだけでなく,自己監督型2Dベースラインよりも一貫して改善されていることを示す。
論文 参考訳(メタデータ) (2022-09-07T23:24:09Z) - Points2NeRF: Generating Neural Radiance Fields from 3D point cloud [0.0]
ニューラルラジアンス場(NeRF)として3次元物体を表現することを提案する。
ハイパーネットワークのパラダイムを活用して、モデルをトレーニングして、関連するカラー値を持つ3Dポイントクラウドを取ります。
提案手法は効率的な3次元オブジェクト表現を提供し,既存手法に対するいくつかの利点を提供する。
論文 参考訳(メタデータ) (2022-06-02T20:23:33Z) - Pix2NeRF: Unsupervised Conditional $\pi$-GAN for Single Image to Neural
Radiance Fields Translation [93.77693306391059]
本研究では,物体のニューラルレージアンス場(NeRF)を生成するパイプラインを提案する。
本手法は,無条件3D画像合成のための生成モデルである$pi$-GANに基づいている。
論文 参考訳(メタデータ) (2022-02-26T15:28:05Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。