論文の概要: StyleFaceV: Face Video Generation via Decomposing and Recomposing
Pretrained StyleGAN3
- arxiv url: http://arxiv.org/abs/2208.07862v1
- Date: Tue, 16 Aug 2022 17:47:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-17 12:44:08.326541
- Title: StyleFaceV: Face Video Generation via Decomposing and Recomposing
Pretrained StyleGAN3
- Title(参考訳): StyleFaceV: 事前トレーニングされたStyleGAN3の分解と再コンパイルによる顔ビデオ生成
- Authors: Haonan Qiu, Yuming Jiang, Hang Zhou, Wayne Wu, Ziwei Liu
- Abstract要約: そこで我々は,鮮明な動きを持つ高忠実度ID保存顔ビデオを生成するStyleFaceVというフレームワークを提案する。
我々の中核となる洞察は、外観を分解し、情報を合成し、それらをStyleGAN3の潜在空間に再分解することで、安定的でダイナミックな結果を生み出すことである。
- 参考スコア(独自算出の注目度): 43.43545400625567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Realistic generative face video synthesis has long been a pursuit in both
computer vision and graphics community. However, existing face video generation
methods tend to produce low-quality frames with drifted facial identities and
unnatural movements. To tackle these challenges, we propose a principled
framework named StyleFaceV, which produces high-fidelity identity-preserving
face videos with vivid movements. Our core insight is to decompose appearance
and pose information and recompose them in the latent space of StyleGAN3 to
produce stable and dynamic results. Specifically, StyleGAN3 provides strong
priors for high-fidelity facial image generation, but the latent space is
intrinsically entangled. By carefully examining its latent properties, we
propose our decomposition and recomposition designs which allow for the
disentangled combination of facial appearance and movements. Moreover, a
temporal-dependent model is built upon the decomposed latent features, and
samples reasonable sequences of motions that are capable of generating
realistic and temporally coherent face videos. Particularly, our pipeline is
trained with a joint training strategy on both static images and high-quality
video data, which is of higher data efficiency. Extensive experiments
demonstrate that our framework achieves state-of-the-art face video generation
results both qualitatively and quantitatively. Notably, StyleFaceV is capable
of generating realistic $1024\times1024$ face videos even without
high-resolution training videos.
- Abstract(参考訳): リアルな生成顔ビデオ合成は、コンピュータビジョンとグラフィックコミュニティの両方において、長い間追求されてきた。
しかし、既存の顔映像生成法は、ドリフトした顔のアイデンティティと不自然な動きを持つ低品質のフレームを生成する傾向がある。
そこで本稿では,これらの課題に対処するために,高度に忠実なアイデンティティ保存された顔ビデオを生成するstylefacevという基本フレームワークを提案する。
我々の中核となる洞察は、外観を分解して情報を合成し、それらをStyleGAN3の潜在空間に再分解し、安定かつ動的結果を生成することである。
具体的には、StyleGAN3は高忠実な顔画像生成に強い先行性を提供するが、潜伏空間は本質的に絡み合っている。
本研究は,その潜伏特性を慎重に検討することにより,顔の外観と動きの絡み合った組み合わせを可能にする分解・再構成設計を提案する。
さらに、時間依存モデルは分解された潜伏特徴に基づいて構築され、現実的かつ時間的にコヒーレントな顔ビデオを生成することのできる合理的な動き列をサンプリングする。
特に当社のパイプラインでは,静的画像と高品質なビデオデータの両方を共同でトレーニングし,高いデータ効率を実現しています。
広範な実験により,本フレームワークが定性的かつ定量的に最先端の映像生成を実現することを実証した。
StyleFaceVは、高解像度のトレーニングビデオがなくても、リアルな1024\times1024$のフェイスビデオを生成することができる。
関連論文リスト
- VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation [79.99551055245071]
時間的安定性を向上するエンドツーエンドパイプラインであるVividPoseを提案する。
識別対応外見制御器は、他の外見の詳細を損なうことなく、追加の顔情報を統合する。
SMPL-Xからの高密度レンダリングマップとスパーススケルトンマップの両方を利用する幾何対応のポーズコントローラ。
VividPoseは、提案したWildデータセットに優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-28T13:18:32Z) - Video2StyleGAN: Encoding Video in Latent Space for Manipulation [63.03250800510085]
本稿では,顔映像のセマンティックな操作のために,顔映像をStyleGANの潜在空間に符号化する新しいネットワークを提案する。
提案手法は,リアルタイム(66fps)の高速化を実現しつつ,既存の単一画像手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2022-06-27T06:48:15Z) - StyleHEAT: One-Shot High-Resolution Editable Talking Face Generation via
Pretrained StyleGAN [49.917296433657484]
ワンショット・トーキング・フェイス・ジェネレーションは、任意のポートレート画像から高品質なトーキング・フェイス・ビデオを合成することを目的としている。
本研究では,事前学習したStyleGANの潜在特徴空間について検討し,優れた空間変換特性について考察する。
本稿では,事前学習したStyleGANをベースとした,強力な機能セットを実現する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-08T12:06:12Z) - Video-driven Neural Physically-based Facial Asset for Production [33.24654834163312]
高品質な物理的資産を持つ動的顔のジオメトリを生成するための,学習に基づく新しいビデオ駆動型アプローチを提案する。
本手法は,従来の映像駆動型顔再構成法やアニメーション法よりも精度が高く,視覚的忠実度が高い。
論文 参考訳(メタデータ) (2022-02-11T13:22:48Z) - Stitch it in Time: GAN-Based Facial Editing of Real Videos [38.81306268180105]
本稿では,映像中の顔のセマンティックな編集を行うフレームワークを提案する。
提案手法は,有意義な顔操作を行い,高い時間的一貫性を維持し,難易度,高品質な音声ヘッドビデオに適用することができる。
論文 参考訳(メタデータ) (2022-01-20T18:48:20Z) - Image-to-Video Generation via 3D Facial Dynamics [78.01476554323179]
静止画像から様々な映像を生成するために多目的モデルであるFaceAnimeを提案する。
私たちのモデルは、顔ビデオや顔ビデオの予測など、さまざまなAR/VRやエンターテイメントアプリケーションに汎用的です。
論文 参考訳(メタデータ) (2021-05-31T02:30:11Z) - Head2Head++: Deep Facial Attributes Re-Targeting [6.230979482947681]
我々は,顔の3次元形状とGANを利用して,顔と頭部の再現作業のための新しいディープラーニングアーキテクチャを設計する。
駆動単眼動作から複雑な非剛性顔の動きを捉え,時間的に一貫した映像を合成する。
我々のシステムは、ほぼリアルタイムでエンドツーエンドの再現(18fps)を行う。
論文 参考訳(メタデータ) (2020-06-17T23:38:37Z) - DeepFaceFlow: In-the-wild Dense 3D Facial Motion Estimation [56.56575063461169]
DeepFaceFlowは、3D非剛体顔の流れを推定するための堅牢で高速で高精度なフレームワークである。
私たちのフレームワークは、2つの非常に大規模な顔ビデオデータセットでトレーニングされ、テストされました。
登録された画像に対して,60fpsで3次元フローマップを生成する。
論文 参考訳(メタデータ) (2020-05-14T23:56:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。