論文の概要: Robust Pose Transfer with Dynamic Details using Neural Video Rendering
- arxiv url: http://arxiv.org/abs/2106.14132v1
- Date: Sun, 27 Jun 2021 03:40:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-29 17:53:34.613313
- Title: Robust Pose Transfer with Dynamic Details using Neural Video Rendering
- Title(参考訳): ニューラルビデオレンダリングによるロバストポーズ転送の動的詳細化
- Authors: Yang-tian Sun, Hao-zhi Huang, Xuan Wang, Yu-kun Lai, Wei Liu, Lin Gao
- Abstract要約: 画像翻訳に基づくダイナミックディテール生成ネットワーク(D2G-Net)を組み合わせたニューラルビデオレンダリングフレームワークを提案する。
具体的には、テクスチャ表現を新たに提示し、静的およびポーズ変化の外観特性の両方を符号化する。
我々のニューラルヒューマンビデオは、2kから4kのフレームしか持たない短いビデオでも、より明確なダイナミックディテールとより堅牢なパフォーマンスを達成することができることを実証しています。
- 参考スコア(独自算出の注目度): 45.6834250950187
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Pose transfer of human videos aims to generate a high fidelity video of a
target person imitating actions of a source person. A few studies have made
great progress either through image translation with deep latent features or
neural rendering with explicit 3D features. However, both of them rely on large
amounts of training data to generate realistic results, and the performance
degrades on more accessible internet videos due to insufficient training
frames. In this paper, we demonstrate that the dynamic details can be preserved
even trained from short monocular videos. Overall, we propose a neural video
rendering framework coupled with an image-translation-based dynamic details
generation network (D2G-Net), which fully utilizes both the stability of
explicit 3D features and the capacity of learning components. To be specific, a
novel texture representation is presented to encode both the static and
pose-varying appearance characteristics, which is then mapped to the image
space and rendered as a detail-rich frame in the neural rendering stage.
Moreover, we introduce a concise temporal loss in the training stage to
suppress the detail flickering that is made more visible due to high-quality
dynamic details generated by our method. Through extensive comparisons, we
demonstrate that our neural human video renderer is capable of achieving both
clearer dynamic details and more robust performance even on accessible short
videos with only 2k - 4k frames.
- Abstract(参考訳): 人間の動画のポーズ転送は、ソースの人物の行動を模倣したターゲット人物の忠実度の高いビデオを生成することを目的としている。
いくつかの研究は、深い潜伏特徴を持つ画像翻訳や、明示的な3D特徴を持つニューラルレンダリングを通じて大きな進歩を遂げている。
しかし、両者とも、現実的な結果を生み出すために大量のトレーニングデータに依存しており、トレーニングフレームの不足により、よりアクセスしやすいインターネットビデオではパフォーマンスが低下する。
本稿では,短時間の単分子ビデオから,動的詳細をトレーニングしても保存できることを実証する。
全体として,画像翻訳に基づくダイナミックディテール生成ネットワーク(d2g-net)と組み合わされたニューラルビデオレンダリングフレームワークを提案する。
具体的には、新しいテクスチャ表現を示し、静的およびポーズ変化の外観特性の両方を符号化し、画像空間にマッピングし、ニューラルネットワークレンダリング段階で詳細に富んだフレームとして描画する。
さらに,本手法が生み出す高品質なダイナミックディテールにより,より目に見えるディテール・フレッカリングを抑えるため,トレーニング段階での簡潔な時間的損失も導入する。
2kから4kのフレームしか持たない短いビデオでも、我々のニューラル・ヒューマン・ビデオ・レンダラーはより明瞭なダイナミックディテールとより堅牢なパフォーマンスを実現することができることを実証した。
関連論文リスト
- Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation [44.220329202024494]
我々は,1つのGPU上で816本の動画でテキストから画像への拡散モデルを学習する,数ショットベースのチューニングフレームワーク LAMP を提案する。
具体的には,コンテンツ生成のための既製のテキスト・ツー・イメージモデルを用いて,第1フレーム条件のパイプラインを設計する。
時間次元の特徴を捉えるため、T2Iモデルの事前訓練された2次元畳み込み層を、新しい時間空間運動学習層に拡張する。
論文 参考訳(メタデータ) (2023-10-16T19:03:19Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Text-To-4D Dynamic Scene Generation [111.89517759596345]
テキスト記述から3次元動的シーンを生成するMAV3D(Make-A-Video3D)を提案する。
提案手法では, シーンの外観, 密度, 動きの整合性に最適化された4次元動的ニューラルラジアンス場(NeRF)を用いる。
提供されるテキストから出力されるダイナミックビデオは、任意のカメラの位置と角度から見ることができ、任意の3D環境に合成することができる。
論文 参考訳(メタデータ) (2023-01-26T18:14:32Z) - Neural Feature Fusion Fields: 3D Distillation of Self-Supervised 2D
Image Representations [92.88108411154255]
本稿では,3次元シーンとして再構成可能な複数画像の解析に後者を適用する際に,高密度な2次元画像特徴抽出器を改善する手法を提案する。
本手法は,手動ラベルを使わずに,シーン固有のニューラルネットワークの文脈における意味理解を可能にするだけでなく,自己監督型2Dベースラインよりも一貫して改善されていることを示す。
論文 参考訳(メタデータ) (2022-09-07T23:24:09Z) - Flow Guided Transformable Bottleneck Networks for Motion Retargeting [29.16125343915916]
既存の取り組みでは、対象者ごとの長いトレーニング映像を利用して、対象者固有のモーショントランスファーモデルをトレーニングしている。
ターゲットからの1枚または数枚の画像しか必要としないモーショントランスファー技術が近年注目されている。
本稿では,トランスフォーマブル・ボトルネックネットワークにヒントを得て,画像内容の暗黙の容積表現に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-14T21:58:30Z) - Neural 3D Video Synthesis [18.116032726623608]
本研究では,動的実世界のシーンのマルチビュー映像記録を表現可能な3次元映像合成手法を提案する。
私たちのアプローチは、モデルフリーでダイナミックな設定に、新しい方向の静的神経放射体の高品質とコンパクトさを取ります。
本手法は,高度に複雑でダイナミックなシーンでも1k以上の解像度で高精細な広角ノベルビューをレンダリングできることを実証する。
論文 参考訳(メタデータ) (2021-03-03T18:47:40Z) - Vid2Actor: Free-viewpoint Animatable Person Synthesis from Video in the
Wild [22.881898195409885]
対象者の「夢中」映像が与えられた場合、映像中の人物のアニマタブルなモデルを再構築する。
出力モデルは、明示的な3dメッシュ再構成なしに、学習されたコントロールを介して、任意のカメラビューに任意のボディポーズでレンダリングすることができる。
論文 参考訳(メタデータ) (2020-12-23T18:50:42Z) - Neural Human Video Rendering by Learning Dynamic Textures and
Rendering-to-Video Translation [99.64565200170897]
本研究では,2次元スクリーン空間に人体を埋め込むことで,時間的コヒーレントな微細な細部を学習することで,人間の映像合成手法を提案する。
我々は,人間の再現やモノクロ映像からの新たなビュー合成などのアプローチの適用例を示し,質的にも定量的にも,芸術の状態を著しく改善した。
論文 参考訳(メタデータ) (2020-01-14T18:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。