論文の概要: Learning Neural Volumetric Representations of Dynamic Humans in Minutes
- arxiv url: http://arxiv.org/abs/2302.12237v2
- Date: Fri, 24 Feb 2023 03:13:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-27 15:34:59.812008
- Title: Learning Neural Volumetric Representations of Dynamic Humans in Minutes
- Title(参考訳): 数分間の動的人間の神経体積表現の学習
- Authors: Chen Geng, Sida Peng, Zhen Xu, Hujun Bao, Xiaowei Zhou
- Abstract要約: 本稿では,視覚的品質の競争力のある映像から,ダイナミックな人間のニューラルボリューム映像を学習するための新しい手法を提案する。
具体的には、ネットワークの表現力をよりよく人体に分散させるために、新しい部分ベースのボクセル化人間表現を定義する。
実験により,従来のシーンごとの最適化手法よりも100倍高速に学習できることが実証された。
- 参考スコア(独自算出の注目度): 49.10057060558854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the challenge of quickly reconstructing free-viewpoint
videos of dynamic humans from sparse multi-view videos. Some recent works
represent the dynamic human as a canonical neural radiance field (NeRF) and a
motion field, which are learned from videos through differentiable rendering.
But the per-scene optimization generally requires hours. Other generalizable
NeRF models leverage learned prior from datasets and reduce the optimization
time by only finetuning on new scenes at the cost of visual fidelity. In this
paper, we propose a novel method for learning neural volumetric videos of
dynamic humans from sparse view videos in minutes with competitive visual
quality. Specifically, we define a novel part-based voxelized human
representation to better distribute the representational power of the network
to different human parts. Furthermore, we propose a novel 2D motion
parameterization scheme to increase the convergence rate of deformation field
learning. Experiments demonstrate that our model can be learned 100 times
faster than prior per-scene optimization methods while being competitive in the
rendering quality. Training our model on a $512 \times 512$ video with 100
frames typically takes about 5 minutes on a single RTX 3090 GPU. The code will
be released on our project page: https://zju3dv.github.io/instant_nvr
- Abstract(参考訳): 本稿では,疎度なマルチビュー映像から動的人間の自由視点映像を迅速に再構築する課題について述べる。
いくつかの最近の研究は、動的人間を標準的な神経放射場(NeRF)と運動場として表現している。
しかし、シーンごとの最適化は通常数時間を要する。
他の一般的なnerfモデルはデータセットから事前学習し、ビジュアル忠実度を犠牲にして新しいシーンを微調整するだけで最適化時間を短縮できる。
本稿では,視覚的品質の競争力のある映像から,ダイナミックな人間のニューラルボリューム映像を学習するための新しい手法を提案する。
具体的には、ネットワークの表現力を異なる人間によりよく分配するために、新しい部分ベースのvoxelized human representationを定義する。
さらに,変形場学習の収束率を高めるために,新しい2次元運動パラメータ化手法を提案する。
実験により,レンダリング品質の面での競争力を保ちつつ,事前の最適化手法よりも100倍早く学習できることが実証された。
512 \times 512$のビデオで、100フレームでモデルをトレーニングするには、通常、RTX 3090 GPUで約5分かかります。
コードはプロジェクトページでリリースされる。 https://zju3dv.github.io/instant_nvr。
関連論文リスト
- D-NPC: Dynamic Neural Point Clouds for Non-Rigid View Synthesis from Monocular Video [53.83936023443193]
本稿では,スマートフォンのキャプチャなどのモノクロ映像から動的に新しいビューを合成する手法を導入することにより,この分野に貢献する。
我々のアプローチは、局所的な幾何学と外観を別個のハッシュエンコードされたニューラル特徴グリッドにエンコードする暗黙の時間条件のポイントクラウドである、$textitdynamic Neural point cloudとして表現されている。
論文 参考訳(メタデータ) (2024-06-14T14:35:44Z) - HQ3DAvatar: High Quality Controllable 3D Head Avatar [65.70885416855782]
本稿では,高フォトリアリスティックなデジタルヘッドアバターを構築するための新しいアプローチを提案する。
本手法はニューラルネットワークによってパラメータ化された暗黙関数を用いて標準空間を学習する。
テスト時,本手法は単眼のRGBビデオによって駆動される。
論文 参考訳(メタデータ) (2023-03-25T13:56:33Z) - Efficient Meshy Neural Fields for Animatable Human Avatars [87.68529918184494]
高忠実でアニマブルな人間のアバターをビデオから効果的にデジタル化することは、挑戦的で活発な研究課題である。
最近のレンダリングベースのニューラル表現は、フレンドリーなユーザビリティと光変化の再現性を備えた、人間のデジタル化の新しい方法を開く。
アニマタブルなヒトアバターを再構築するために,メッシュニューラルネットワークを効果的に学習する手法であるEMAを提案する。
論文 参考訳(メタデータ) (2023-03-23T00:15:34Z) - Mixed Neural Voxels for Fast Multi-view Video Synthesis [16.25013978657888]
高速なトレーニング速度と競争性のあるレンダリング特性を持つ動的シーンをよりよく表現するための,MixVoxels という新しい手法を提案する。
提案したMixVoxelsは、4D動的シーンを静的および動的ボクセルの混合として表現し、異なるネットワークで処理する。
300コマビデオの入力によるダイナミックシーンの15分間のトレーニングにより、MixVoxelsは従来の方法よりも優れたPSNRを実現している。
論文 参考訳(メタデータ) (2022-12-01T00:26:45Z) - SelfNeRF: Fast Training NeRF for Human from Monocular Self-rotating
Video [29.50059002228373]
SelfNeRFは、人間のパフォーマンスのための効率的な神経放射場に基づく新しいビュー合成法である。
訓練はスクラッチから行うことができ、20分ほどで高忠実度が得られる。
論文 参考訳(メタデータ) (2022-10-04T14:54:40Z) - Neural Human Performer: Learning Generalizable Radiance Fields for Human
Performance Rendering [34.80975358673563]
本稿では,強靭なパフォーマンスキャプチャのためのパラメトリック人体モデルに基づいて,一般化可能なニューラルラジアンス場を学習する手法を提案する。
ZJU-MoCap と AIST のデータセットを用いた実験により,本手法は近頃の一般化可能な NeRF 法よりも顕著に優れていることが示された。
論文 参考訳(メタデータ) (2021-09-15T17:32:46Z) - Fast Training of Neural Lumigraph Representations using Meta Learning [109.92233234681319]
我々は、リアルタイムにレンダリングできる高品質な表現を素早く学習することを目的として、新しいニューラルレンダリングアプローチを開発した。
われわれのアプローチであるMetaNLR++は、ニューラル形状表現と2次元CNNに基づく画像特徴抽出、集約、再投影のユニークな組み合わせを用いてこれを実現する。
そこで本研究では,MetaNLR++が類似あるいはより優れたフォトリアリスティックなノベルビュー合成を実現し,競合する手法が要求される時間のほんの少しの時間で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-28T18:55:50Z) - Stereo Radiance Fields (SRF): Learning View Synthesis for Sparse Views
of Novel Scenes [48.0304999503795]
SRF(Stereo Radiance Fields)は、エンドツーエンドで訓練されたニューラルビュー合成手法である。
SRFは新しいシーンに一般化し、テスト時にスパースビューしか必要としない。
実験の結果、SRFはシーンに過度に収まるのではなく構造を学ぶことがわかった。
論文 参考訳(メタデータ) (2021-04-14T15:38:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。