論文の概要: Neural 3D Video Synthesis
- arxiv url: http://arxiv.org/abs/2103.02597v1
- Date: Wed, 3 Mar 2021 18:47:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-06 19:42:26.399883
- Title: Neural 3D Video Synthesis
- Title(参考訳): ニューラル3次元ビデオ合成
- Authors: Tianye Li, Mira Slavcheva, Michael Zollhoefer, Simon Green, Christoph
Lassner, Changil Kim, Tanner Schmidt, Steven Lovegrove, Michael Goesele,
Zhaoyang Lv
- Abstract要約: 本研究では,動的実世界のシーンのマルチビュー映像記録を表現可能な3次元映像合成手法を提案する。
私たちのアプローチは、モデルフリーでダイナミックな設定に、新しい方向の静的神経放射体の高品質とコンパクトさを取ります。
本手法は,高度に複雑でダイナミックなシーンでも1k以上の解像度で高精細な広角ノベルビューをレンダリングできることを実証する。
- 参考スコア(独自算出の注目度): 18.116032726623608
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel approach for 3D video synthesis that is able to represent
multi-view video recordings of a dynamic real-world scene in a compact, yet
expressive representation that enables high-quality view synthesis and motion
interpolation. Our approach takes the high quality and compactness of static
neural radiance fields in a new direction: to a model-free, dynamic setting. At
the core of our approach is a novel time-conditioned neural radiance fields
that represents scene dynamics using a set of compact latent codes. To exploit
the fact that changes between adjacent frames of a video are typically small
and locally consistent, we propose two novel strategies for efficient training
of our neural network: 1) An efficient hierarchical training scheme, and 2) an
importance sampling strategy that selects the next rays for training based on
the temporal variation of the input videos. In combination, these two
strategies significantly boost the training speed, lead to fast convergence of
the training process, and enable high quality results. Our learned
representation is highly compact and able to represent a 10 second 30 FPS
multi-view video recording by 18 cameras with a model size of just 28MB. We
demonstrate that our method can render high-fidelity wide-angle novel views at
over 1K resolution, even for highly complex and dynamic scenes. We perform an
extensive qualitative and quantitative evaluation that shows that our approach
outperforms the current state of the art. We include additional video and
information at: https://neural-3d-video.github.io/
- Abstract(参考訳): 本稿では,高画質な映像合成と動き補間が可能なコンパクトかつ表現豊かな表現で,動的現実シーンのマルチビュー映像記録を表現できる3次元映像合成の新しい手法を提案する。
私たちのアプローチは、モデルフリーでダイナミックな設定に、新しい方向の静的神経放射体の高品質とコンパクトさを取ります。
私たちのアプローチの核心は、コンパクトな潜入符号のセットを使用してシーンダイナミクスを表す新しい時間調節神経放射フィールドです。
ビデオの隣接フレーム間の変化が典型的には小さく局所的に一貫性があるという事実を生かすべく,ニューラルネットワークの効率的なトレーニングのための2つの新しい戦略を提案する:1)効率的な階層的トレーニングスキーム,2)入力ビデオの時間的変動に基づいて次のレイを選択する重要なサンプリング戦略。
これら2つの戦略を組み合わせることで、トレーニング速度が大幅に向上し、トレーニングプロセスが迅速に収束し、高品質な結果が得られます。
学習した表現は、非常にコンパクトで、28MBのモデルサイズで18台のカメラで10秒30FPSのマルチビュービデオ記録を表現できる。
本手法は,高度に複雑でダイナミックなシーンでも1k以上の解像度で高精細な広角ノベルビューをレンダリングできることを実証する。
広範な質的定量的評価を行い,我々のアプローチが現在の技術に勝っていることを示す。
https://neural-3d-video.github.io/
関連論文リスト
- D-NPC: Dynamic Neural Point Clouds for Non-Rigid View Synthesis from Monocular Video [53.83936023443193]
本稿では,スマートフォンのキャプチャなどのモノクロ映像から動的に新しいビューを合成する手法を導入することにより,この分野に貢献する。
我々のアプローチは、局所的な幾何学と外観を別個のハッシュエンコードされたニューラル特徴グリッドにエンコードする暗黙の時間条件のポイントクラウドである、$textitdynamic Neural point cloudとして表現されている。
論文 参考訳(メタデータ) (2024-06-14T14:35:44Z) - Multi-Level Neural Scene Graphs for Dynamic Urban Environments [64.26401304233843]
本稿では, 動的都市環境に対する新しい分解可能放射場アプローチを提案する。
本稿では,数百の高速移動物体を含む数十のシーケンスから数千の画像にスケールする多段階ニューラルシーングラフ表現を提案する。
論文 参考訳(メタデータ) (2024-03-29T21:52:01Z) - OD-NeRF: Efficient Training of On-the-Fly Dynamic Neural Radiance Fields [63.04781030984006]
ダイナミック・ニューラル・レイディアンス・フィールド(ダイナミック・ニューラル・レイディアンス・フィールド)は、3次元ダイナミック・シーンにおける新しいビュー・シンセサイザーにおいて印象的な結果を示した。
本研究では,ダイナミックシーンのストリーミングが可能な動的NeRFを効率よく訓練・レンダリングするOD-NeRFを提案する。
本アルゴリズムは,6FPSトレーニングと合成動的シーンのレンダリングのインタラクティブな高速化を実現し,実世界の動的シーンの最先端と比較して,大幅なスピードアップを実現している。
論文 参考訳(メタデータ) (2023-05-24T07:36:47Z) - Mixed Neural Voxels for Fast Multi-view Video Synthesis [16.25013978657888]
高速なトレーニング速度と競争性のあるレンダリング特性を持つ動的シーンをよりよく表現するための,MixVoxels という新しい手法を提案する。
提案したMixVoxelsは、4D動的シーンを静的および動的ボクセルの混合として表現し、異なるネットワークで処理する。
300コマビデオの入力によるダイナミックシーンの15分間のトレーニングにより、MixVoxelsは従来の方法よりも優れたPSNRを実現している。
論文 参考訳(メタデータ) (2022-12-01T00:26:45Z) - Streaming Radiance Fields for 3D Video Synthesis [32.856346090347174]
本稿では,実世界のダイナミックシーンの新たなビュー合成のための,ストリーミングレージアンス場再構築のための明示的グリッドベース手法を提案する。
挑戦的なビデオシーケンスの実験により、我々の手法は、フレーム当たり15秒のトレーニング速度を、競合的なレンダリング品質で達成できることが示されている。
論文 参考訳(メタデータ) (2022-10-26T16:23:02Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - Neural Deformable Voxel Grid for Fast Optimization of Dynamic View
Synthesis [63.25919018001152]
動的シーンを扱うための高速な変形可能な放射場法を提案する。
本手法は訓練に20分しかかからないD-NeRFに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2022-06-15T17:49:08Z) - ACORN: Adaptive Coordinate Networks for Neural Scene Representation [40.04760307540698]
現在の神経表現は、数十万以上のポリゴンを持つメガピクセルまたは3Dシーン以上の解像度で画像を正確に表現できません。
トレーニングや推論中にリソースを適応的に割り当てる新しいハイブリッド暗黙的ネットワークアーキテクチャとトレーニング戦略を紹介します。
ギガピクセル画像を40dB近いピーク信号対雑音比に収まる最初の実験を実証します。
論文 参考訳(メタデータ) (2021-05-06T16:21:38Z) - Neural Body: Implicit Neural Representations with Structured Latent
Codes for Novel View Synthesis of Dynamic Humans [56.63912568777483]
本稿では,人間の演奏者に対する新しい視点合成の課題について,カメラビューの少なさから考察する。
異なるフレームで学習されたニューラルネットワーク表現が、変形可能なメッシュにアンカーされた同じ遅延コードセットを共有することを前提とした新しい人体表現であるNeural Bodyを提案する。
ZJU-MoCapの実験により、我々の手法は、新規なビュー合成品質において、先行研究よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-12-31T18:55:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。