論文の概要: ProSGNeRF: Progressive Dynamic Neural Scene Graph with Frequency
Modulated Auto-Encoder in Urban Scenes
- arxiv url: http://arxiv.org/abs/2312.09076v2
- Date: Fri, 15 Dec 2023 07:11:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 12:35:08.820125
- Title: ProSGNeRF: Progressive Dynamic Neural Scene Graph with Frequency
Modulated Auto-Encoder in Urban Scenes
- Title(参考訳): ProSGNeRF: 都市景観における周波数変調オートエンコーダを用いたプログレッシブ・ニューラルシーングラフ
- Authors: Tianchen Deng, Siyang Liu, Xuan Wang, Yejia Liu, Danwei Wang, Weidong
Chen
- Abstract要約: 暗黙の神経表現は、大規模で複雑なシーンのビュー合成において有望な結果を示している。
既存のアプローチでは、素早く動くオブジェクトをキャプチャできないか、カメラのエゴモーションなしでシーングラフを構築する必要がある。
本研究では,大規模都市景観と高速移動車両の視点合成問題を共同で解決することを目的とする。
- 参考スコア(独自算出の注目度): 16.037300340326368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Implicit neural representation has demonstrated promising results in view
synthesis for large and complex scenes. However, existing approaches either
fail to capture the fast-moving objects or need to build the scene graph
without camera ego-motions, leading to low-quality synthesized views of the
scene. We aim to jointly solve the view synthesis problem of large-scale urban
scenes and fast-moving vehicles, which is more practical and challenging. To
this end, we first leverage a graph structure to learn the local scene
representations of dynamic objects and the background. Then, we design a
progressive scheme that dynamically allocates a new local scene graph trained
with frames within a temporal window, allowing us to scale up the
representation to an arbitrarily large scene. Besides, the training views of
urban scenes are relatively sparse, which leads to a significant decline in
reconstruction accuracy for dynamic objects. Therefore, we design a frequency
auto-encoder network to encode the latent code and regularize the frequency
range of objects, which can enhance the representation of dynamic objects and
address the issue of sparse image inputs. Additionally, we employ lidar point
projection to maintain geometry consistency in large-scale urban scenes.
Experimental results demonstrate that our method achieves state-of-the-art view
synthesis accuracy, object manipulation, and scene roaming ability. The code
will be open-sourced upon paper acceptance.
- Abstract(参考訳): 暗黙の神経表現は、大きく複雑なシーンのビュー合成において有望な結果を示している。
しかし、既存のアプローチでは、高速に動くオブジェクトをキャプチャできないか、カメラのエゴモーションなしでシーングラフを構築する必要があるため、シーンの低品質な合成ビューに繋がる。
我々は,より実用的で困難な大規模都市景観と高速移動車両の視点合成問題を共同で解決することを目指している。
この目的のために、まずグラフ構造を利用して、動的オブジェクトと背景の局所的なシーン表現を学習する。
そして,時間的ウィンドウ内でフレームで訓練された新しいローカルシーングラフを動的に割り当てるプログレッシブ・スキームを設計し,任意の大きさのシーンに表現を拡大する。
また,都市景観のトレーニング視点は比較的疎いため,動的物体の復元精度は著しく低下する。
そこで我々は,動的オブジェクトの表現を強化し,スパース画像入力問題に対処するために,潜在コードを符号化し,オブジェクトの周波数範囲を定式化する周波数自動エンコーダネットワークを設計した。
さらに,大規模都市景観における幾何整合性を維持するためにライダー・ポイント・プロジェクションを用いる。
実験により,本手法は現状のビュー合成精度,オブジェクト操作,シーンローミング能力を実現していることが示された。
コードは、紙が受け入れられるとオープンソースになる。
関連論文リスト
- CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - DynIBaR: Neural Dynamic Image-Based Rendering [79.44655794967741]
複雑な動的シーンを描写したモノクロ映像から新しいビューを合成する問題に対処する。
我々は,近傍のビューから特徴を集約することで,新しい視点を合成するボリューム画像ベースのレンダリングフレームワークを採用する。
動的シーンデータセットにおける最先端手法の大幅な改善を示す。
論文 参考訳(メタデータ) (2022-11-20T20:57:02Z) - Editable Free-viewpoint Video Using a Layered Neural Representation [35.44420164057911]
我々は,スパース16カメラのみを用いた大規模ダイナミックシーンの編集可能な自由視点映像生成のための最初のアプローチを提案する。
私たちのアプローチの核心は、環境そのものを含む各動的エンティティがST-NeRFと呼ばれる時空コヒーレントな神経層放射線表現に定式化される新しい階層化された神経表現です。
実験は,ダイナミックシーンにおける高品質,フォトリアリスティック,編集可能な自由視点映像生成を実現するための手法の有効性を示す。
論文 参考訳(メタデータ) (2021-04-30T06:50:45Z) - Non-Rigid Neural Radiance Fields: Reconstruction and Novel View
Synthesis of a Dynamic Scene From Monocular Video [76.19076002661157]
Non-Rigid Neural Radiance Fields (NR-NeRF) は、一般的な非剛体動的シーンに対する再構成および新しいビュー合成手法である。
一つのコンシューマ級カメラでさえ、新しい仮想カメラビューからダイナミックシーンの洗練されたレンダリングを合成するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-12-22T18:46:12Z) - Neural Scene Flow Fields for Space-Time View Synthesis of Dynamic Scenes [70.76742458931935]
本稿では,動的シーンを外観・幾何学・3次元シーン動作の時間変化連続関数としてモデル化する新しい表現を提案する。
私たちの表現は、観測された入力ビューに適合するようにニューラルネットワークを介して最適化されます。
我々の表現は、細い構造、ビュー依存効果、自然な動きの度合いなどの複雑な動的シーンに利用できることを示す。
論文 参考訳(メタデータ) (2020-11-26T01:23:44Z) - Neural Scene Graphs for Dynamic Scenes [57.65413768984925]
動的シーンをシーングラフに分解する最初のニューラルレンダリング手法を提案する。
我々は暗黙的に符号化されたシーンと、単一の暗黙の関数でオブジェクトを記述するために共同で学習された潜在表現を組み合わせる。
論文 参考訳(メタデータ) (2020-11-20T12:37:10Z) - Dynamic Object Removal and Spatio-Temporal RGB-D Inpainting via
Geometry-Aware Adversarial Learning [9.150245363036165]
動的物体はロボットの環境に対する認識に大きな影響を及ぼす。
本研究は,動的物体によって隠蔽された領域における可塑性色,テクスチャ,幾何学を合成することにより,この問題に対処する。
本研究は, 対人訓練を用いて建築を最適化し, オンラインで色と深度構造を幻覚できるような, 微妙な現実的なテクスチャを合成する。
論文 参考訳(メタデータ) (2020-08-12T01:23:21Z) - Neural Sparse Voxel Fields [151.20366604586403]
高速かつ高品質な自由視点レンダリングのためのニューラルシーン表現であるNeural Sparse Voxel Fields (NSVF)を紹介する。
NSVFは、各細胞の局所特性をモデル化するために、スパース・ボクセル・オクツリーで組織された、ボクセルに結合した暗黙のフィールドのセットを定義する。
提案手法は, 高い品質を達成しつつ, 推論時の最先端技術(NeRF(Mildenhall et al., 2020))よりも10倍以上高速である。
論文 参考訳(メタデータ) (2020-07-22T17:51:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。