論文の概要: Panoptic Neural Fields: A Semantic Object-Aware Neural Scene
Representation
- arxiv url: http://arxiv.org/abs/2205.04334v1
- Date: Mon, 9 May 2022 14:34:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-10 16:44:46.564686
- Title: Panoptic Neural Fields: A Semantic Object-Aware Neural Scene
Representation
- Title(参考訳): panoptic neural fields:意味的オブジェクト認識ニューラルシーン表現
- Authors: Abhijit Kundu, Kyle Genova, Xiaoqi Yin, Alireza Fathi, Caroline
Pantofaru, Leonidas Guibas, Andrea Tagliasacchi, Frank Dellaert, Thomas
Funkhouser
- Abstract要約: 本稿では,物体認識型ニューラルシーン表現であるPNFについて述べる。
PNFはシーンをオブジェクト(モノ)とバックグラウンド(ストフ)のセットに分解する
このモデルは,新規なビュー,2次元パノラマ分割,3次元シーン編集,マルチビュー深度予測など,いくつかのタスクに効果的に利用することができる。
- 参考スコア(独自算出の注目度): 28.387277178967516
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present Panoptic Neural Fields (PNF), an object-aware neural scene
representation that decomposes a scene into a set of objects (things) and
background (stuff). Each object is represented by an oriented 3D bounding box
and a multi-layer perceptron (MLP) that takes position, direction, and time and
outputs density and radiance. The background stuff is represented by a similar
MLP that additionally outputs semantic labels. Each object MLPs are
instance-specific and thus can be smaller and faster than previous object-aware
approaches, while still leveraging category-specific priors incorporated via
meta-learned initialization. Our model builds a panoptic radiance field
representation of any scene from just color images. We use off-the-shelf
algorithms to predict camera poses, object tracks, and 2D image semantic
segmentations. Then we jointly optimize the MLP weights and bounding box
parameters using analysis-by-synthesis with self-supervision from color images
and pseudo-supervision from predicted semantic segmentations. During
experiments with real-world dynamic scenes, we find that our model can be used
effectively for several tasks like novel view synthesis, 2D panoptic
segmentation, 3D scene editing, and multiview depth prediction.
- Abstract(参考訳): 本稿では,物体(モノ)と背景(ストフ)の集合にシーンを分解するオブジェクト認識型ニューラルシーン表現であるPanoptic Neural Fields(PNF)を提案する。
各オブジェクトは向き付けられた3dバウンディングボックスと、位置、方向、時間を取り、密度と放射率を出力する多層パーセプトロン(mlp)によって表現される。
背景のものは、セマンティックラベルを出力する類似のMLPによって表現されます。
それぞれのオブジェクト MLP はインスタンス固有であるため、メタ学習初期化によって組み込まれたカテゴリ固有のプリエントを引き続き活用しながら、従来のオブジェクト認識アプローチよりも小さく、高速にすることができる。
我々のモデルは、カラー画像から任意のシーンのパノプティカル放射場表現を構築する。
市販のアルゴリズムを用いて、カメラのポーズ、オブジェクトのトラック、および2D画像セマンティックセグメンテーションを予測する。
次に,色画像からの自己スーパービジョンと予測されたセマンティックセグメンテーションからの疑似スーパービジョンを用いて,MDP重みと境界ボックスパラメータを共同で最適化する。
実世界の動的シーンを用いた実験では,新しいビュー合成,2次元panopticセグメンテーション,3次元シーン編集,マルチビュー深度予測などのタスクに有効に使用できることがわかった。
関連論文リスト
- Neural Assets: 3D-Aware Multi-Object Scene Synthesis with Image Diffusion Models [32.51506331929564]
本研究では,物体ごとの表現,ニューラルアセットを用いてシーン内の個々の物体の3次元ポーズを制御することを提案する。
本モデルでは,合成3次元シーンデータセットと実世界の2つのビデオデータセットを用いて,最先端のマルチオブジェクト編集結果を実現する。
論文 参考訳(メタデータ) (2024-06-13T16:29:18Z) - One-Shot Neural Fields for 3D Object Understanding [112.32255680399399]
ロボット工学のための統一的でコンパクトなシーン表現を提案する。
シーン内の各オブジェクトは、幾何学と外観をキャプチャする潜在コードによって描写される。
この表現は、新しいビューレンダリングや3D再構成、安定した把握予測といった様々なタスクのためにデコードできる。
論文 参考訳(メタデータ) (2022-10-21T17:33:14Z) - Unsupervised Multi-View Object Segmentation Using Radiance Field
Propagation [55.9577535403381]
本稿では,未ラベルのシーンの多視点画像のみを考慮し,再構成中の3次元オブジェクトのセグメント化に新たなアプローチを提案する。
提案手法の核となるのは,2方向光度損失を持つ個々の物体の放射界に対する新しい伝搬戦略である。
我々の知る限り、RFPはニューラルレイディアンスフィールド(NeRF)のための3次元シーンオブジェクトセグメンテーションに取り組むための最初の教師なしアプローチである。
論文 参考訳(メタデータ) (2022-10-02T11:14:23Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Neural Volumetric Object Selection [126.04480613166194]
マルチプレーン画像(MPI)やニューラルレイディアンスフィールド(NeRF)のような,神経体積の3次元表現における物体の選択手法を提案する。
提案手法では,前景と背景の2次元ユーザを1つの視点で記述し,対象物の3次元セグメンテーションを自動的に推定する。
論文 参考訳(メタデータ) (2022-05-30T08:55:20Z) - Zero-Shot Text-Guided Object Generation with Dream Fields [111.06026544180398]
ニューラルレンダリングとマルチモーダル画像とテキスト表現を組み合わせることで、多様な3Dオブジェクトを合成する。
提案手法であるドリームフィールドは,3次元の監督なしに広範囲の物体の形状と色を生成できる。
実験では、ドリーム・フィールズ(Dream Fields)は、様々な自然言語のキャプションから、現実的で多視点で一貫したオブジェクトの幾何学と色を作り出す。
論文 参考訳(メタデータ) (2021-12-02T17:53:55Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z) - Semantic Implicit Neural Scene Representations With Semi-Supervised
Training [47.61092265963234]
その結果,暗黙的なシーン表現がポイントごとのセマンティックセマンティックセグメンテーションに活用できることが示唆された。
我々の手法は単純で汎用的で、数個のラベル付き2Dセグメンテーションマスクしか必要としない。
意味的に認識された暗黙的なニューラルシーン表現のための2つの新しい応用を探索する。
論文 参考訳(メタデータ) (2020-03-28T00:43:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。