論文の概要: Neural Human Video Rendering by Learning Dynamic Textures and
Rendering-to-Video Translation
- arxiv url: http://arxiv.org/abs/2001.04947v3
- Date: Mon, 5 Jul 2021 21:08:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 13:17:55.431867
- Title: Neural Human Video Rendering by Learning Dynamic Textures and
Rendering-to-Video Translation
- Title(参考訳): 動的テクスチャ学習と映像翻訳によるニューラルヒューマンビデオレンダリング
- Authors: Lingjie Liu, Weipeng Xu, Marc Habermann, Michael Zollhoefer, Florian
Bernard, Hyeongwoo Kim, Wenping Wang, Christian Theobalt
- Abstract要約: 本研究では,2次元スクリーン空間に人体を埋め込むことで,時間的コヒーレントな微細な細部を学習することで,人間の映像合成手法を提案する。
我々は,人間の再現やモノクロ映像からの新たなビュー合成などのアプローチの適用例を示し,質的にも定量的にも,芸術の状態を著しく改善した。
- 参考スコア(独自算出の注目度): 99.64565200170897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthesizing realistic videos of humans using neural networks has been a
popular alternative to the conventional graphics-based rendering pipeline due
to its high efficiency. Existing works typically formulate this as an
image-to-image translation problem in 2D screen space, which leads to artifacts
such as over-smoothing, missing body parts, and temporal instability of
fine-scale detail, such as pose-dependent wrinkles in the clothing. In this
paper, we propose a novel human video synthesis method that approaches these
limiting factors by explicitly disentangling the learning of time-coherent
fine-scale details from the embedding of the human in 2D screen space. More
specifically, our method relies on the combination of two convolutional neural
networks (CNNs). Given the pose information, the first CNN predicts a dynamic
texture map that contains time-coherent high-frequency details, and the second
CNN conditions the generation of the final video on the temporally coherent
output of the first CNN. We demonstrate several applications of our approach,
such as human reenactment and novel view synthesis from monocular video, where
we show significant improvement over the state of the art both qualitatively
and quantitatively.
- Abstract(参考訳): ニューラルネットワークを用いた人間のリアルなビデオの合成は、高効率のため、従来のグラフィックベースのレンダリングパイプラインの代替として人気がある。
既存の作品では、これを2次元スクリーン空間におけるイメージ・ツー・イメージの翻訳問題として定式化しており、過度な平滑化、身体部分の欠如、衣服のポーズ依存のしわのような微細な詳細の時間的不安定化などのアーティファクトにつながる。
本稿では,人間の2次元スクリーン空間への埋め込みから,時間的コヒーレントな微細な詳細の学習を明示的に切り離して,これらの制限要因にアプローチする新しいヒューマンビデオ合成手法を提案する。
より具体的には、2つの畳み込みニューラルネットワーク(CNN)の組み合わせに依存する。
ポーズ情報から、第1CNNは、時間コヒーレントな高周波の詳細を含む動的テクスチャマップを予測し、第2CNNは、第1CNNの時間コヒーレントな出力に最終映像を生成する。
我々は,人間の再現やモノクロビデオからの新規ビュー合成といったアプローチのいくつかの応用を実証し,質的かつ定量的に芸術の状態を著しく改善した。
関連論文リスト
- D-NPC: Dynamic Neural Point Clouds for Non-Rigid View Synthesis from Monocular Video [53.83936023443193]
本稿では,スマートフォンのキャプチャなどのモノクロ映像から動的に新しいビューを合成する手法を導入することにより,この分野に貢献する。
我々のアプローチは、局所的な幾何学と外観を別個のハッシュエンコードされたニューラル特徴グリッドにエンコードする暗黙の時間条件のポイントクラウドである、$textitdynamic Neural point cloudとして表現されている。
論文 参考訳(メタデータ) (2024-06-14T14:35:44Z) - DNS SLAM: Dense Neural Semantic-Informed SLAM [92.39687553022605]
DNS SLAMは、ハイブリッド表現を備えた新しいRGB-DセマンティックSLAMアプローチである。
本手法は画像に基づく特徴抽出と多視点幾何制約を統合し,外観の細部を改良する。
実験により, 合成データと実世界のデータ追跡の両面において, 最先端の性能が得られた。
論文 参考訳(メタデータ) (2023-11-30T21:34:44Z) - Human Performance Modeling and Rendering via Neural Animated Mesh [40.25449482006199]
従来のメッシュをニューラルレンダリングの新たなクラスでブリッジします。
本稿では,映像から人間の視点をレンダリングする新しい手法を提案する。
我々は、ARヘッドセットにバーチャルヒューマンパフォーマンスを挿入して、さまざまなプラットフォーム上でのアプローチを実証する。
論文 参考訳(メタデータ) (2022-09-18T03:58:00Z) - Fast Training of Neural Lumigraph Representations using Meta Learning [109.92233234681319]
我々は、リアルタイムにレンダリングできる高品質な表現を素早く学習することを目的として、新しいニューラルレンダリングアプローチを開発した。
われわれのアプローチであるMetaNLR++は、ニューラル形状表現と2次元CNNに基づく画像特徴抽出、集約、再投影のユニークな組み合わせを用いてこれを実現する。
そこで本研究では,MetaNLR++が類似あるいはより優れたフォトリアリスティックなノベルビュー合成を実現し,競合する手法が要求される時間のほんの少しの時間で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-28T18:55:50Z) - Robust Pose Transfer with Dynamic Details using Neural Video Rendering [48.48929344349387]
画像翻訳に基づくダイナミックディテール生成ネットワーク(D2G-Net)を組み合わせたニューラルビデオレンダリングフレームワークを提案する。
具体的には、テクスチャ表現を新たに提示し、静的およびポーズ変化の外観特性の両方を符号化する。
我々のニューラルヒューマンビデオは、2kから4kのフレームしか持たない短いビデオでも、より明確なダイナミックディテールとより堅牢なパフォーマンスを達成することができることを実証しています。
論文 参考訳(メタデータ) (2021-06-27T03:40:22Z) - High-Fidelity Neural Human Motion Transfer from Monocular Video [71.75576402562247]
ビデオベースの人間のモーション転送は、ソースモーションに従って人間のビデオアニメーションを作成します。
自然なポーズ依存非剛性変形を伴う高忠実で時間的に一貫性のある人の動き伝達を行う新しい枠組みを提案する。
実験結果では,映像リアリズムの点で最先端を著しく上回っている。
論文 参考訳(メタデータ) (2020-12-20T16:54:38Z) - Speech2Video Synthesis with 3D Skeleton Regularization and Expressive
Body Poses [36.00309828380724]
本稿では,与えられた音声を特定の人物の写実的な発話ビデオに変換する新しい手法を提案する。
我々は、リカレントニューラルネットワーク(RNN)を用いて、まず音声シーケンスから3Dスケルトンの動きを生成する。
骨格運動を現実的で表現力のあるものにするために,人工的な3次元人骨の知識と個人音声の象徴的ジェスチャーの学習辞書を生成プロセスに組み込む。
論文 参考訳(メタデータ) (2020-07-17T19:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。