Fugu-MT 論文翻訳(概要): StyleFaceV: Face Video Generation via Decomposing and Recomposing Pretrained StyleGAN3

論文の概要: StyleFaceV: Face Video Generation via Decomposing and Recomposing Pretrained StyleGAN3

arxiv url: http://arxiv.org/abs/2208.07862v1
Date: Tue, 16 Aug 2022 17:47:03 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-17 12:44:08.326541
Title: StyleFaceV: Face Video Generation via Decomposing and Recomposing Pretrained StyleGAN3
Title（参考訳）: StyleFaceV: 事前トレーニングされたStyleGAN3の分解と再コンパイルによる顔ビデオ生成
Authors: Haonan Qiu, Yuming Jiang, Hang Zhou, Wayne Wu, Ziwei Liu
Abstract要約: そこで我々は,鮮明な動きを持つ高忠実度ID保存顔ビデオを生成するStyleFaceVというフレームワークを提案する。我々の中核となる洞察は、外観を分解し、情報を合成し、それらをStyleGAN3の潜在空間に再分解することで、安定的でダイナミックな結果を生み出すことである。
参考スコア（独自算出の注目度）: 43.43545400625567
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Realistic generative face video synthesis has long been a pursuit in both computer vision and graphics community. However, existing face video generation methods tend to produce low-quality frames with drifted facial identities and unnatural movements. To tackle these challenges, we propose a principled framework named StyleFaceV, which produces high-fidelity identity-preserving face videos with vivid movements. Our core insight is to decompose appearance and pose information and recompose them in the latent space of StyleGAN3 to produce stable and dynamic results. Specifically, StyleGAN3 provides strong priors for high-fidelity facial image generation, but the latent space is intrinsically entangled. By carefully examining its latent properties, we propose our decomposition and recomposition designs which allow for the disentangled combination of facial appearance and movements. Moreover, a temporal-dependent model is built upon the decomposed latent features, and samples reasonable sequences of motions that are capable of generating realistic and temporally coherent face videos. Particularly, our pipeline is trained with a joint training strategy on both static images and high-quality video data, which is of higher data efficiency. Extensive experiments demonstrate that our framework achieves state-of-the-art face video generation results both qualitatively and quantitatively. Notably, StyleFaceV is capable of generating realistic $1024\times1024$ face videos even without high-resolution training videos.
Abstract（参考訳）: リアルな生成顔ビデオ合成は、コンピュータビジョンとグラフィックコミュニティの両方において、長い間追求されてきた。しかし、既存の顔映像生成法は、ドリフトした顔のアイデンティティと不自然な動きを持つ低品質のフレームを生成する傾向がある。そこで本稿では,これらの課題に対処するために,高度に忠実なアイデンティティ保存された顔ビデオを生成するstylefacevという基本フレームワークを提案する。我々の中核となる洞察は、外観を分解して情報を合成し、それらをStyleGAN3の潜在空間に再分解し、安定かつ動的結果を生成することである。具体的には、StyleGAN3は高忠実な顔画像生成に強い先行性を提供するが、潜伏空間は本質的に絡み合っている。本研究は,その潜伏特性を慎重に検討することにより,顔の外観と動きの絡み合った組み合わせを可能にする分解・再構成設計を提案する。さらに、時間依存モデルは分解された潜伏特徴に基づいて構築され、現実的かつ時間的にコヒーレントな顔ビデオを生成することのできる合理的な動き列をサンプリングする。特に当社のパイプラインでは,静的画像と高品質なビデオデータの両方を共同でトレーニングし,高いデータ効率を実現しています。広範な実験により,本フレームワークが定性的かつ定量的に最先端の映像生成を実現することを実証した。 StyleFaceVは、高解像度のトレーニングビデオがなくても、リアルな1024\times1024$のフェイスビデオを生成することができる。

関連論文リスト

EchoVideo: Identity-Preserving Human Video Generation by Multimodal Feature Fusion [3.592206475366951]
既存の手法は「コピー・ペースト」アーティファクトと類似性の低い問題に苦しむ。テキストから高レベルなセマンティック機能を統合して、クリーンな顔認証表現をキャプチャするEchoVideoを提案する。高品質で制御性があり、忠実なビデオを生成するのに優れた結果をもたらす。
論文参考訳（メタデータ） (2025-01-23T08:06:11Z)
VividFace: A Diffusion-Based Hybrid Framework for High-Fidelity Video Face Swapping [43.30061680192465]
ビデオ・フェイス・スワップに特化して設計された初めての拡散型フレームワークを提案する。提案手法は,VidFaceVAEと組み合わせた特殊設計拡散モデルである。本フレームワークは,従来の手法と比較して,アイデンティティの保存,時間的整合性,視覚的品質において優れた性能を発揮する。
論文参考訳（メタデータ） (2024-12-15T18:58:32Z)
SVP: Style-Enhanced Vivid Portrait Talking Head Diffusion Model [66.34929233269409]
トーキングヘッドジェネレーション(THG)は、デジタル人間、映画制作、バーチャルリアリティーなど様々な分野の幅広い応用分野において重要な課題である。本稿では,THGのスタイル関連情報をフル活用したSVP(Style-Enhanced Vivid Portrait)を提案する。我々のモデルは、本質的なスタイルを柔軟に制御できる多様な、鮮明で高品質なビデオを生成し、既存の最先端の手法より優れています。
論文参考訳（メタデータ） (2024-09-05T06:27:32Z)
G3FA: Geometry-guided GAN for Face Animation [14.488117084637631]
この制限に対処するために、顔アニメーション(G3FA)のための幾何学誘導型GANを導入する。我々の新しいアプローチは、顔アニメーションモデルに2次元画像のみを用いて3次元情報を組み込むことを可能にした。顔の再現モデルでは、動きのダイナミクスを捉えるために2次元の運動ワープを利用する。
論文参考訳（メタデータ） (2024-08-23T13:13:24Z)
VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation [79.99551055245071]
時間的安定性を向上するエンドツーエンドパイプラインであるVividPoseを提案する。識別対応外見制御器は、他の外見の詳細を損なうことなく、追加の顔情報を統合する。 SMPL-Xからの高密度レンダリングマップとスパーススケルトンマップの両方を利用する幾何対応のポーズコントローラ。 VividPoseは、提案したWildデータセットに優れた一般化能力を示す。
論文参考訳（メタデータ） (2024-05-28T13:18:32Z)
Video2StyleGAN: Encoding Video in Latent Space for Manipulation [63.03250800510085]
本稿では,顔映像のセマンティックな操作のために,顔映像をStyleGANの潜在空間に符号化する新しいネットワークを提案する。提案手法は,リアルタイム(66fps)の高速化を実現しつつ,既存の単一画像手法よりも大幅に優れる。
論文参考訳（メタデータ） (2022-06-27T06:48:15Z)
Video-driven Neural Physically-based Facial Asset for Production [33.24654834163312]
高品質な物理的資産を持つ動的顔のジオメトリを生成するための,学習に基づく新しいビデオ駆動型アプローチを提案する。本手法は,従来の映像駆動型顔再構成法やアニメーション法よりも精度が高く,視覚的忠実度が高い。
論文参考訳（メタデータ） (2022-02-11T13:22:48Z)
Image-to-Video Generation via 3D Facial Dynamics [78.01476554323179]
静止画像から様々な映像を生成するために多目的モデルであるFaceAnimeを提案する。私たちのモデルは、顔ビデオや顔ビデオの予測など、さまざまなAR/VRやエンターテイメントアプリケーションに汎用的です。
論文参考訳（メタデータ） (2021-05-31T02:30:11Z)
Head2Head++: Deep Facial Attributes Re-Targeting [6.230979482947681]
我々は,顔の3次元形状とGANを利用して,顔と頭部の再現作業のための新しいディープラーニングアーキテクチャを設計する。駆動単眼動作から複雑な非剛性顔の動きを捉え,時間的に一貫した映像を合成する。我々のシステムは、ほぼリアルタイムでエンドツーエンドの再現(18fps)を行う。
論文参考訳（メタデータ） (2020-06-17T23:38:37Z)
DeepFaceFlow: In-the-wild Dense 3D Facial Motion Estimation [56.56575063461169]
DeepFaceFlowは、3D非剛体顔の流れを推定するための堅牢で高速で高精度なフレームワークである。私たちのフレームワークは、2つの非常に大規模な顔ビデオデータセットでトレーニングされ、テストされました。登録された画像に対して,60fpsで3次元フローマップを生成する。
論文参考訳（メタデータ） (2020-05-14T23:56:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。