論文の概要: FACIAL: Synthesizing Dynamic Talking Face with Implicit Attribute
Learning
- arxiv url: http://arxiv.org/abs/2108.07938v1
- Date: Wed, 18 Aug 2021 02:10:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-19 14:42:50.692996
- Title: FACIAL: Synthesizing Dynamic Talking Face with Implicit Attribute
Learning
- Title(参考訳): FACIAL: 帰属学習による動的発話顔の合成
- Authors: Chenxu Zhang, Yifan Zhao, Yifei Huang, Ming Zeng, Saifeng Ni, Madhukar
Budagavi, Xiaohu Guo
- Abstract要約: 本稿では,音声信号を入力とし,短いターゲット映像クリップを参照として,話し顔を生成する手法を提案する。
本発明の方法は、入力された音声信号と同期した自然な唇の動き、頭部ポーズ、および目の点滅で、対象の顔の写実的な映像を合成する。
実験結果とユーザスタディにより,本手法は,最先端の手法よりも優れた品質で,現実的な音声ビデオを生成することができることが示された。
- 参考スコア(独自算出の注目度): 23.14865405847467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a talking face generation method that takes an
audio signal as input and a short target video clip as reference, and
synthesizes a photo-realistic video of the target face with natural lip
motions, head poses, and eye blinks that are in-sync with the input audio
signal. We note that the synthetic face attributes include not only explicit
ones such as lip motions that have high correlations with speech, but also
implicit ones such as head poses and eye blinks that have only weak correlation
with the input audio. To model such complicated relationships among different
face attributes with input audio, we propose a FACe Implicit Attribute Learning
Generative Adversarial Network (FACIAL-GAN), which integrates the
phonetics-aware, context-aware, and identity-aware information to synthesize
the 3D face animation with realistic motions of lips, head poses, and eye
blinks. Then, our Rendering-to-Video network takes the rendered face images and
the attention map of eye blinks as input to generate the photo-realistic output
video frames. Experimental results and user studies show our method can
generate realistic talking face videos with not only synchronized lip motions,
but also natural head movements and eye blinks, with better qualities than the
results of state-of-the-art methods.
- Abstract(参考訳): 本稿では,音声信号を入力とし,短いターゲット映像クリップを参照として発話顔生成法を提案し,入力された音声信号と同期した自然な唇の動き,頭部ポーズ,目まきを対象顔のリアルな映像として合成する。
合成顔の特徴は、音声と高い相関関係を持つ唇の動きなどの明示的な特徴だけでなく、入力音声と弱い相関しか持たない頭部ポーズや目まきなどの暗黙的な特徴も含んでいる。
入力音声と顔属性の複雑な関係をモデル化するために,音声認識,文脈認識,アイデンティティ認識情報を統合し,口唇,頭部ポーズ,目まぶしのリアルな動きで3d顔アニメーションを合成する顔暗示属性学習生成支援ネットワーク(face-gan)を提案する。
次に、レンダリング・トゥ・ビデオネットワークは、レンダリングされた顔画像と眼球の注意マップを入力として、フォトリアリスティックな出力ビデオフレームを生成する。
実験結果とユーザスタディにより,本手法は唇の動きの同期だけでなく,自然な頭部の動きや眼の瞬きを,最先端の方法よりも優れた品質で再現できることが示された。
関連論文リスト
- JEAN: Joint Expression and Audio-guided NeRF-based Talking Face Generation [24.2065254076207]
共同表現と音声誘導による発話顔生成のための新しい手法を提案する。
提案手法は,高忠実度音声映像を合成し,最先端の表情伝達を実現する。
論文 参考訳(メタデータ) (2024-09-18T17:18:13Z) - CP-EB: Talking Face Generation with Controllable Pose and Eye Blinking
Embedding [32.006763134518245]
本稿では「CP-EB」という話し顔生成手法を提案する。
音声信号を入力として、人物像を参照として、短いビデオクリップと適切なアイリンクによって制御された頭部ポーズで映像を話している写実的な人々を合成する。
実験結果から,本手法は, 口唇運動, 自然な頭部ポーズ, まぶた眼で, 写実的な発話顔を生成することができることがわかった。
論文 参考訳(メタデータ) (2023-11-15T03:37:41Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Identity-Preserving Talking Face Generation with Landmark and Appearance
Priors [106.79923577700345]
既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。
本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。
提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
論文 参考訳(メタデータ) (2023-05-15T01:31:32Z) - Imitator: Personalized Speech-driven 3D Facial Animation [63.57811510502906]
State-of-the-artメソッドは、ターゲットアクターの顔トポロジを変形させ、ターゲットアクターのアイデンティティ固有の話し方や顔の慣用性を考慮せずに入力オーディオを同期させる。
本稿では,音声による表情合成手法であるImitatorについて述べる。
提案手法は,ターゲットアクターの発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成する。
論文 参考訳(メタデータ) (2022-12-30T19:00:02Z) - MeshTalk: 3D Face Animation from Speech using Cross-Modality
Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。
このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文 参考訳(メタデータ) (2021-04-16T17:05:40Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z) - Audio-driven Talking Face Video Generation with Learning-based
Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。
我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。
提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文 参考訳(メタデータ) (2020-02-24T10:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。