論文の概要: Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation
- arxiv url: http://arxiv.org/abs/2104.11116v1
- Date: Thu, 22 Apr 2021 15:10:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-23 14:00:33.688185
- Title: Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation
- Title(参考訳): 暗黙的モジュール化音声・視覚表現によるポーズ制御型発話顔生成
- Authors: Hang Zhou, Yasheng Sun, Wayne Wu, Chen Change Loy, Xiaogang Wang,
Ziwei Liu
- Abstract要約: ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
- 参考スコア(独自算出の注目度): 96.66010515343106
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While accurate lip synchronization has been achieved for arbitrary-subject
audio-driven talking face generation, the problem of how to efficiently drive
the head pose remains. Previous methods rely on pre-estimated structural
information such as landmarks and 3D parameters, aiming to generate
personalized rhythmic movements. However, the inaccuracy of such estimated
information under extreme conditions would lead to degradation problems. In
this paper, we propose a clean yet effective framework to generate
pose-controllable talking faces. We operate on raw face images, using only a
single photo as an identity reference. The key is to modularize audio-visual
representations by devising an implicit low-dimension pose code. Substantially,
both speech content and head pose information lie in a joint non-identity
embedding space. While speech content information can be defined by learning
the intrinsic synchronization between audio-visual modalities, we identify that
a pose code will be complementarily learned in a modulated convolution-based
reconstruction framework.
Extensive experiments show that our method generates accurately lip-synced
talking faces whose poses are controllable by other videos. Moreover, our model
has multiple advanced capabilities including extreme view robustness and
talking face frontalization. Code, models, and demo videos are available at
https://hangz-nju-cuhk.github.io/projects/PC-AVS.
- Abstract(参考訳): 任意の音声駆動の話し顔生成では正確な唇の同期が実現されているが、頭部のポーズを効率的に駆動する方法の問題は残る。
以前の手法では、ランドマークや3dパラメータなどの事前に見積もられた構造情報に依存しており、パーソナライズされたリズミカルな動きを生成する。
しかし、そのような推定情報の極端な条件下での不正確さは、劣化問題を引き起こす。
本稿では,ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
鍵となるのは、暗黙の低次元ポーズコードを考案することで、オーディオ視覚表現をモジュール化することである。
音声内容と頭部ポーズ情報の両方が、結合した非同一性埋め込み空間に配置される。
音声-視覚モダリティ間の内在的同期を学習することで音声コンテンツ情報を定義することができるが、変調畳み込みに基づく再構成フレームワークにおいてポーズコードが相補的に学習されることを示す。
広汎な実験により,他のビデオでポーズを制御可能な唇同期音声を生成する。
さらに,本モデルでは,視野の強靭性や面の正面化など,複数の高度な機能を備えている。
コード、モデル、デモビデオはhttps://hangz-nju-cuhk.github.io/projects/PC-AVSで公開されている。
関連論文リスト
- High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - Controllable Talking Face Generation by Implicit Facial Keypoints Editing [6.036277153327655]
本稿では,音声による表情の変形を制御するための音声合成手法であるControlTalkを提案する。
提案手法は,HDTFやMEADなど,広く使用されているベンチマークにおいて,最先端の性能よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-05T02:54:46Z) - FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Identity-Preserving Talking Face Generation with Landmark and Appearance
Priors [106.79923577700345]
既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。
本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。
提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
論文 参考訳(メタデータ) (2023-05-15T01:31:32Z) - DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with
Diffusion Autoencoder [20.814063371439904]
そこで本研究では,DAE-Talkerを用いて全映像フレームを合成し,音声の内容に合わせて自然な頭部の動きを生成する。
また、ポーズ制御性のための音声2latentのポーズモデリングも導入する。
実験の結果,DAE-Talkerはリップシンク,ビデオの忠実さ,自然さなどの既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-03-30T17:18:31Z) - Masked Lip-Sync Prediction by Audio-Visual Contextual Exploitation in
Transformers [91.00397473678088]
従来の研究では、任意の目標の音声条件に対して、口唇同期音声を正確に生成する方法が検討されている。
本稿では,映像品質の正確なリップ同期を実現するAV-CAT(Audio-Visual Context-Aware Transformer)フレームワークを提案する。
我々のモデルは任意の被験者に対して高忠実度リップ同期結果を生成することができる。
論文 参考訳(メタデータ) (2022-12-09T16:32:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。