論文の概要: Factored Neural Representation for Scene Understanding
- arxiv url: http://arxiv.org/abs/2304.10950v3
- Date: Wed, 21 Jun 2023 03:37:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 10:43:11.274762
- Title: Factored Neural Representation for Scene Understanding
- Title(参考訳): シーン理解のための因子的ニューラル表現
- Authors: Yu-Shiang Wong, Niloy J. Mitra
- Abstract要約: 本稿では,モノクラーRGB-Dビデオから直接学習して,オブジェクトレベルのニューラルプレゼンテーションを生成する,ファクタリングされたニューラルシーン表現を提案する。
我々は、合成データと実データの両方に対する一連のニューラルアプローチに対して、表現が効率的で、解釈可能で、編集可能であることを示す。
- 参考スコア(独自算出の注目度): 39.66967677639173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A long-standing goal in scene understanding is to obtain interpretable and
editable representations that can be directly constructed from a raw monocular
RGB-D video, without requiring specialized hardware setup or priors. The
problem is significantly more challenging in the presence of multiple moving
and/or deforming objects. Traditional methods have approached the setup with a
mix of simplifications, scene priors, pretrained templates, or known
deformation models. The advent of neural representations, especially neural
implicit representations and radiance fields, opens the possibility of
end-to-end optimization to collectively capture geometry, appearance, and
object motion. However, current approaches produce global scene encoding,
assume multiview capture with limited or no motion in the scenes, and do not
facilitate easy manipulation beyond novel view synthesis. In this work, we
introduce a factored neural scene representation that can directly be learned
from a monocular RGB-D video to produce object-level neural presentations with
an explicit encoding of object movement (e.g., rigid trajectory) and/or
deformations (e.g., nonrigid movement). We evaluate ours against a set of
neural approaches on both synthetic and real data to demonstrate that the
representation is efficient, interpretable, and editable (e.g., change object
trajectory). Code and data are available at
http://geometry.cs.ucl.ac.uk/projects/2023/factorednerf .
- Abstract(参考訳): シーン理解における長年の目標は、ハードウェアの設定や事前設定を必要とせずに、生のrgb-dビデオから直接構築できる解釈可能で編集可能な表現を得ることである。
この問題は、複数の移動や変形する物体の存在において、はるかに難しい。
従来の手法では、単純化、シーン先行、事前訓練されたテンプレート、既知の変形モデルを組み合わせてセットアップにアプローチしている。
神経表現の出現、特に神経暗黙的表現と放射場は、集合的な幾何学、外観、物体の動きを捉えるエンドツーエンド最適化の可能性を開く。
しかし、現在のアプローチでは、グローバルなシーンエンコーディングが実現され、シーン内の動きが制限された、あるいは全くないマルチビューキャプチャーが想定される。
本研究では,単眼のRGB-Dビデオから直接学習し,物体の運動(剛性軌道)や変形(非剛性運動など)を明示的に符号化した物体レベルのニューラルプレゼンテーションを生成する,ファクタリングされたニューラルシーン表現を提案する。
我々は、合成データと実データの両方における一連のニューラルアプローチを評価し、表現が効率的で、解釈可能で、編集可能であることを示す(例えば、オブジェクトの軌跡を変更する)。
コードとデータはhttp://geometry.cs.ucl.ac.uk/projects/2023/factorednerfで入手できる。
関連論文リスト
- MoST: Multi-modality Scene Tokenization for Motion Prediction [39.97334929667033]
本稿では,視覚世界をシーン要素のコンパクトな集合にトークン化することを提案する。
次に、トレーニング済みの画像基盤モデルとLiDARニューラルネットワークを利用して、すべてのシーン要素をオープン語彙的にエンコードする。
提案した表現は,数百のトークンで多フレーム多モード観測を効率的に符号化することができる。
論文 参考訳(メタデータ) (2024-04-30T13:09:41Z) - RUST: Latent Neural Scene Representations from Unposed Imagery [21.433079925439234]
2次元観察から3次元シーンの構造を推定することは、コンピュータビジョンにおける根本的な課題である。
ニューラルシーン表現に基づく最近の普及したアプローチは、非常に大きな影響を与えている。
RUST(Really Unposed Scene representation Transformer)は、RGB画像だけで訓練された新しいビューに対するポーズレスアプローチである。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - NeuPhysics: Editable Neural Geometry and Physics from Monocular Videos [82.74918564737591]
本稿では,モノクラーRGBビデオ入力のみから動的シーンの3次元形状と物理パラメータを学習する手法を提案する。
実験により,提案手法は,競合するニューラルフィールドアプローチと比較して,動的シーンのメッシュとビデオの再構成に優れることを示した。
論文 参考訳(メタデータ) (2022-10-22T04:57:55Z) - One-Shot Neural Fields for 3D Object Understanding [112.32255680399399]
ロボット工学のための統一的でコンパクトなシーン表現を提案する。
シーン内の各オブジェクトは、幾何学と外観をキャプチャする潜在コードによって描写される。
この表現は、新しいビューレンダリングや3D再構成、安定した把握予測といった様々なタスクのためにデコードできる。
論文 参考訳(メタデータ) (2022-10-21T17:33:14Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - STaR: Self-supervised Tracking and Reconstruction of Rigid Objects in
Motion with Neural Rendering [9.600908665766465]
本稿では,マルチビューRGB動画のリジッドモーションによる動的シーンの自己監視追跡と再構成を,手動アノテーションなしで行う新しい手法であるSTaRについて述べる。
本手法は,空間軸と時間軸の両方で新規性を測定するフォトリアリスティック・ノベルビューを描画できることを示した。
論文 参考訳(メタデータ) (2020-12-22T23:45:28Z) - Non-Rigid Neural Radiance Fields: Reconstruction and Novel View
Synthesis of a Dynamic Scene From Monocular Video [76.19076002661157]
Non-Rigid Neural Radiance Fields (NR-NeRF) は、一般的な非剛体動的シーンに対する再構成および新しいビュー合成手法である。
一つのコンシューマ級カメラでさえ、新しい仮想カメラビューからダイナミックシーンの洗練されたレンダリングを合成するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-12-22T18:46:12Z) - Neural Scene Graphs for Dynamic Scenes [57.65413768984925]
動的シーンをシーングラフに分解する最初のニューラルレンダリング手法を提案する。
我々は暗黙的に符号化されたシーンと、単一の暗黙の関数でオブジェクトを記述するために共同で学習された潜在表現を組み合わせる。
論文 参考訳(メタデータ) (2020-11-20T12:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。