論文の概要: StyleHEAT: One-Shot High-Resolution Editable Talking Face Generation via
Pretrained StyleGAN
- arxiv url: http://arxiv.org/abs/2203.04036v1
- Date: Tue, 8 Mar 2022 12:06:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-09 14:52:53.889171
- Title: StyleHEAT: One-Shot High-Resolution Editable Talking Face Generation via
Pretrained StyleGAN
- Title(参考訳): StyleHEAT: 事前学習したStyleGANによるワンショット高分解能音声生成
- Authors: Fei Yin and Yong Zhang and Xiaodong Cun and Mingdeng Cao and Yanbo Fan
and Xuan Wang and Qingyan Bai and Baoyuan Wu and Jue Wang and Yujiu Yang
- Abstract要約: ワンショット・トーキング・フェイス・ジェネレーションは、任意のポートレート画像から高品質なトーキング・フェイス・ビデオを合成することを目的としている。
本研究では,事前学習したStyleGANの潜在特徴空間について検討し,優れた空間変換特性について考察する。
本稿では,事前学習したStyleGANをベースとした,強力な機能セットを実現する統一フレームワークを提案する。
- 参考スコア(独自算出の注目度): 49.917296433657484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One-shot talking face generation aims at synthesizing a high-quality talking
face video from an arbitrary portrait image, driven by a video or an audio
segment. One challenging quality factor is the resolution of the output video:
higher resolution conveys more details. In this work, we investigate the latent
feature space of a pre-trained StyleGAN and discover some excellent spatial
transformation properties. Upon the observation, we explore the possibility of
using a pre-trained StyleGAN to break through the resolution limit of training
datasets. We propose a novel unified framework based on a pre-trained StyleGAN
that enables a set of powerful functionalities, i.e., high-resolution video
generation, disentangled control by driving video or audio, and flexible face
editing. Our framework elevates the resolution of the synthesized talking face
to 1024*1024 for the first time, even though the training dataset has a lower
resolution. We design a video-based motion generation module and an audio-based
one, which can be plugged into the framework either individually or jointly to
drive the video generation. The predicted motion is used to transform the
latent features of StyleGAN for visual animation. To compensate for the
transformation distortion, we propose a calibration network as well as a domain
loss to refine the features. Moreover, our framework allows two types of facial
editing, i.e., global editing via GAN inversion and intuitive editing based on
3D morphable models. Comprehensive experiments show superior video quality,
flexible controllability, and editability over state-of-the-art methods.
- Abstract(参考訳): ワンショットの会話顔生成は、ビデオまたはオーディオセグメントによって駆動される任意のポートレート画像から高品質な会話顔映像を合成することを目的としている。
難しい品質要因の1つは、出力されたビデオの解像度である。
本研究では,事前学習されたスタイルガンの特徴空間を調査し,優れた空間変換特性を見出す。
そこで本研究では,事前学習したStyleGANを用いて,トレーニングデータセットの解像度限界を突破する可能性を探る。
本稿では,事前学習されたスタイルガンに基づく新しい統一フレームワークを提案し,高分解能映像生成,映像や音声の駆動による不連続制御,フレキシブルな顔編集を実現する。
私たちのフレームワークは、トレーニングデータセットの解像度が低くても、合成されたトーキングフェイスの解像度を初めて1024*1024に向上させる。
ビデオベースのモーション生成モジュールとオーディオベースのモジュールを設計し、映像生成を個別または共同で行うことができる。
予測された動きは、視覚的アニメーションのためのStyleGANの潜伏した特徴を変換するために使用される。
変換歪みを補正するために,キャリブレーションネットワークと,特徴を洗練するためのドメイン損失を提案する。
さらに,gan インバージョンによるグローバル編集と,3d morphable モデルに基づく直感的編集という,2種類の顔編集を可能にする。
総合的な実験は、最先端の手法よりも優れた映像品質、フレキシブルな制御性、および編集性を示す。
関連論文リスト
- WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - Controllable Talking Face Generation by Implicit Facial Keypoints Editing [6.036277153327655]
本稿では,音声による表情の変形を制御するための音声合成手法であるControlTalkを提案する。
提案手法は,HDTFやMEADなど,広く使用されているベンチマークにおいて,最先端の性能よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-05T02:54:46Z) - I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models [18.36472998650704]
本稿では,1フレームからビデオ全体への編集を事前学習した画像対ビデオモデルを用いてプロパガンダすることで,画像編集ツールをビデオに適用可能にする,新しい汎用的ソリューションを提案する。
I2VEditと呼ばれる本手法は,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保持する。
論文 参考訳(メタデータ) (2024-05-26T11:47:40Z) - GenDeF: Learning Generative Deformation Field for Video Generation [89.49567113452396]
我々は1つの静止画像を生成変形場(GenDeF)でワープすることで映像をレンダリングすることを提案する。
このようなパイプラインには,魅力的なメリットが3つあります。
論文 参考訳(メタデータ) (2023-12-07T18:59:41Z) - High-Fidelity and Freely Controllable Talking Head Video Generation [31.08828907637289]
本稿では,頭部ポーズと表情を自由に制御できる高忠実な音声ヘッドビデオを生成する新しいモデルを提案する。
顔の歪みを伴わずに効果的に動きを伝達する動き認識機能アライメントモジュールを新たに導入する。
我々は,挑戦的データセットのモデルを評価し,その最先端性能を実証する。
論文 参考訳(メタデータ) (2023-04-20T09:02:41Z) - Video-P2P: Video Editing with Cross-attention Control [68.64804243427756]
Video-P2Pは、クロスアテンション制御による現実世界のビデオ編集のための新しいフレームワークである。
Video-P2Pは、オリジナルのポーズやシーンを最適に保存しながら、新しいキャラクターを生成する現実世界のビデオでうまく機能する。
論文 参考訳(メタデータ) (2023-03-08T17:53:49Z) - VToonify: Controllable High-Resolution Portrait Video Style Transfer [103.54337984566877]
制御可能な高解像度のポートレートビデオスタイル転送のための新しいVToonifyフレームワークを提案する。
エンコーダによって抽出されたマルチスケールのコンテンツ特徴に基づいて,StyleGANの中間層と高解像度層を利用して芸術的な肖像画を描画する。
我々のフレームワークは、既存のStyleGANベースの画像トーン化モデルと互換性があり、それらをビデオトーン化に拡張し、色と強度の柔軟なスタイル制御のためにこれらのモデルの魅力的な特徴を継承する。
論文 参考訳(メタデータ) (2022-09-22T17:59:10Z) - PIE: Portrait Image Embedding for Semantic Control [82.69061225574774]
本稿では,StyleGANの潜在空間に実際の肖像画を埋め込むための最初のアプローチを提案する。
トレーニング済みのニューラルネットワークであるStyleRigは、3D形態素顔モデルの制御空間をGANの潜在空間にマッピングする。
アイデンティティエネルギー保存用語は、顔の整合性を維持しながら空間的コヒーレントな編集を可能にする。
論文 参考訳(メタデータ) (2020-09-20T17:53:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。