Fugu-MT 論文翻訳(概要): Decomposing 3D Scenes into Objects via Unsupervised Volume Segmentation

論文の概要: Decomposing 3D Scenes into Objects via Unsupervised Volume Segmentation

arxiv url: http://arxiv.org/abs/2104.01148v1
Date: Fri, 2 Apr 2021 16:59:29 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-05 14:06:06.023763
Title: Decomposing 3D Scenes into Objects via Unsupervised Volume Segmentation
Title（参考訳）: 教師なしボリュームセグメンテーションによる3dシーンのオブジェクトへの分解
Authors: Karl Stelzner, Kristian Kersting, Adam R. Kosiorek
Abstract要約: ニューラルラジアンスフィールド(NeRF)の集合として表現された3Dモデルにシーンの単一のイメージを変換する手法であるObSuRFを紹介します。 RGB-D入力でのNeRFのトレーニングを可能にする新しい損失を導き出し、より計算的に学習を効率化します。
参考スコア（独自算出の注目度）: 26.868351498722884
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present ObSuRF, a method which turns a single image of a scene into a 3D model represented as a set of Neural Radiance Fields (NeRFs), with each NeRF corresponding to a different object. A single forward pass of an encoder network outputs a set of latent vectors describing the objects in the scene. These vectors are used independently to condition a NeRF decoder, defining the geometry and appearance of each object. We make learning more computationally efficient by deriving a novel loss, which allows training NeRFs on RGB-D inputs without explicit ray marching. After confirming that the model performs equal or better than state of the art on three 2D image segmentation benchmarks, we apply it to two multi-object 3D datasets: A multiview version of CLEVR, and a novel dataset in which scenes are populated by ShapeNet models. We find that after training ObSuRF on RGB-D views of training scenes, it is capable of not only recovering the 3D geometry of a scene depicted in a single input image, but also to segment it into objects, despite receiving no supervision in that regard.
Abstract（参考訳）: 本稿では,シーンの1つの画像をニューラルネットワークの放射場(nerfs)の集合として表現した3dモデルに変換する手法であるobsurfを提案する。エンコーダネットワークの1つのフォワードパスは、シーン内のオブジェクトを記述する潜在ベクトルのセットを出力する。これらのベクトルはnerfデコーダの条件付けに独立に使われ、各オブジェクトの形状と外観を定義する。我々は、新しい損失を導出することで学習をより効率的にし、明示的な光線マーチングなしでRGB-D入力上のNeRFを訓練することができる。 3つの2dイメージセグメンテーションベンチマークで、モデルがアートの状態を同等かそれ以上に評価した後に、それを2つの多目的3dデータセットに適用する。トレーニングシーンのRGB-DビューでObSuRFをトレーニングした後、単一の入力画像に描かれたシーンの3次元幾何を復元するだけでなく、その点に関して何の監督も受けずにオブジェクトに分割することが可能になる。

関連論文リスト

DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文参考訳（メタデータ） (2024-06-17T21:15:13Z)
NeRF-MAE: Masked AutoEncoders for Self-Supervised 3D Representation Learning for Neural Radiance Fields [57.617972778377215]
提案手法は,RGB画像から有効な3D表現を生成する方法を示す。我々は、この表現を、提案した擬似RGBデータに基づいて、180万枚以上の画像で事前訓練する。我々は,NeRFの自己教師型プレトレーニングであるNeRF-MAE(NeRF-MAE)を目覚ましいスケールで実施し,様々な3Dタスクの性能向上を実現した。
論文参考訳（メタデータ） (2024-04-01T17:59:55Z)
Instance Neural Radiance Field [62.152611795824185]
本稿では,最初の学習ベースNeRF3Dインスタンスセグメンテーションパイプラインについて述べる。我々は、NeRFのサンプルボリューム特徴に基づいて、3Dプロポーザルベースのマスク予測ネットワークを採用する。また、本手法は、そのような結果を純粋推論で最初に達成した手法の一つである。
論文参考訳（メタデータ） (2023-04-10T05:49:24Z)
SPIn-NeRF: Multiview Segmentation and Perceptual Inpainting with Neural Radiance Fields [26.296017756560467]
3Dでは、解は複数のビューで一貫し、幾何学的に有効でなければならない。本稿では,これらの課題に対処する新しい3Dインペイント手法を提案する。我々はまず,NeRF法と2次元セグメンテーション法と比較して,マルチビューセグメンテーションにおけるアプローチの優位性を実証する。
論文参考訳（メタデータ） (2022-11-22T13:14:50Z)
ONeRF: Unsupervised 3D Object Segmentation from Multiple Views [59.445957699136564]
OneRFは、追加のマニュアルアノテーションなしで、マルチビューのRGBイメージから3Dのオブジェクトインスタンスを自動的に分割し、再構成する手法である。セグメント化された3Dオブジェクトは、様々な3Dシーンの編集と新しいビューレンダリングを可能にする別個のNeRF(Neural Radiance Fields)を使用して表現される。
論文参考訳（メタデータ） (2022-11-22T06:19:37Z)
One-Shot Neural Fields for 3D Object Understanding [112.32255680399399]
ロボット工学のための統一的でコンパクトなシーン表現を提案する。シーン内の各オブジェクトは、幾何学と外観をキャプチャする潜在コードによって描写される。この表現は、新しいビューレンダリングや3D再構成、安定した把握予測といった様々なタスクのためにデコードできる。
論文参考訳（メタデータ） (2022-10-21T17:33:14Z)
Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文参考訳（メタデータ） (2020-10-08T14:49:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。