論文の概要: GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance
- arxiv url: http://arxiv.org/abs/2312.07385v1
- Date: Tue, 12 Dec 2023 16:00:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 15:26:13.976310
- Title: GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance
- Title(参考訳): GSmoothFace:ファイングラインド3D顔誘導による顔生成を一般化したスムース
- Authors: Haiming Zhang, Zhihao Yuan, Chaoda Zheng, Xu Yan, Baoyuan Wang,
Guanbin Li, Song Wu, Shuguang Cui, Zhen Li
- Abstract要約: GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
- 参考スコア(独自算出の注目度): 83.43852715997596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although existing speech-driven talking face generation methods achieve
significant progress, they are far from real-world application due to the
avatar-specific training demand and unstable lip movements. To address the
above issues, we propose the GSmoothFace, a novel two-stage generalized talking
face generation model guided by a fine-grained 3d face model, which can
synthesize smooth lip dynamics while preserving the speaker's identity. Our
proposed GSmoothFace model mainly consists of the Audio to Expression
Prediction (A2EP) module and the Target Adaptive Face Translation (TAFT)
module. Specifically, we first develop the A2EP module to predict expression
parameters synchronized with the driven speech. It uses a transformer to
capture the long-term audio context and learns the parameters from the
fine-grained 3D facial vertices, resulting in accurate and smooth
lip-synchronization performance. Afterward, the well-designed TAFT module,
empowered by Morphology Augmented Face Blending (MAFB), takes the predicted
expression parameters and target video as inputs to modify the facial region of
the target video without distorting the background content. The TAFT
effectively exploits the identity appearance and background context in the
target video, which makes it possible to generalize to different speakers
without retraining. Both quantitative and qualitative experiments confirm the
superiority of our method in terms of realism, lip synchronization, and visual
quality. See the project page for code, data, and request pre-trained models:
https://zhanghm1995.github.io/GSmoothFace.
- Abstract(参考訳): 既存の音声駆動音声合成法は大きな進歩を遂げるが,アバター特有の訓練要求や不安定な唇運動のため,実世界の応用には程遠い。
上記の問題に対処するため,我々は,話者のアイデンティティを保ちながら滑らかな唇のダイナミックスを合成できる,細粒度3次元顔モデルによる2段階の汎用会話顔生成モデルgsmoothfaceを提案する。
提案するgsmoothfaceモデルは,a2ep(audio to expression prediction)モジュールとtaft(target adaptive face translation)モジュールから構成される。
具体的には,a2epモジュールをまず開発し,駆動音声に同期した表現パラメータを予測した。
トランスフォーマは、長期的なオーディオコンテキストをキャプチャし、細粒度の3d顔頂点からパラメータを学習し、正確でスムーズなリップ同期パフォーマンスを実現する。
その後、Morphology Augmented Face Blending (MAFB) によって強化されたよく設計されたTAFTモジュールは、予測された表現パラメータとターゲット映像を入力として取り込んで、背景コンテンツを歪ませることなく、ターゲット映像の顔領域を変更する。
TAFTは、ターゲットビデオにおけるアイデンティティの外観と背景コンテキストを効果的に活用することにより、再トレーニングなしに異なる話者に一般化することができる。
定量的および定性的な実験は、リアリズム、唇同期、視覚的品質の観点から、我々の方法の優位性を確認する。
事前トレーニングされたモデルのコード、データ、リクエストについては、プロジェクトページを参照してください。
関連論文リスト
- MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes [74.82911268630463]
トーキングフェース生成(TFG)は、ターゲットアイデンティティーの顔をアニメーション化し、リアルなトーキングビデオを作成することを目的としている。
MimicTalkは、個人別TFGの効率性と堅牢性を改善するために、NeRFベースの個人非依存のジェネリックモデルから豊富な知識を活用する。
私たちのMimicTalkは、ビデオの品質、効率、表現性に関して、これまでのベースラインを超えていることが実験によって示されています。
論文 参考訳(メタデータ) (2024-10-09T10:12:37Z) - RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network [48.95833484103569]
RealTalkは、音声から表現へのトランスフォーマーであり、高忠実な表現から顔へのフレームワークである。
第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。
第2のコンポーネントでは、軽量な顔認証アライメント(FIA)モジュールを設計する。
この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。
論文 参考訳(メタデータ) (2024-06-26T12:09:59Z) - Controllable Talking Face Generation by Implicit Facial Keypoints Editing [6.036277153327655]
本稿では,音声による表情の変形を制御するための音声合成手法であるControlTalkを提案する。
提案手法は,HDTFやMEADなど,広く使用されているベンチマークにおいて,最先端の性能よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-05T02:54:46Z) - PMMTalk: Speech-Driven 3D Facial Animation from Complementary Pseudo
Multi-modal Features [22.31865247379668]
音声駆動の3D顔アニメーションは、最近大幅に改善されている。
関連作品の多くは音響的モダリティのみを利用しており、視覚的・テキスト的手がかりの影響を無視している。
顔アニメーションの精度を向上させるために,Pseudo Multi-Modal 機能を用いた新しいフレームワーク PMMTalk を提案する。
論文 参考訳(メタデータ) (2023-12-05T14:12:38Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking
Face Generation [71.73912454164834]
音声-リップ同期の汎用化, 画質の向上, システム効率の向上が期待できる。
NeRFは、数分間のトレーニングビデオで高忠実で3D一貫性のある会話顔生成を実現することができるため、この分野で一般的な技術となっている。
そこで我々は,これらの課題に対処するためにGeneFace++を提案し,ピッチの輪郭を補助的特徴として利用し,顔の動き予測プロセスに時間的損失を導入する。
論文 参考訳(メタデータ) (2023-05-01T12:24:09Z) - FaceFormer: Speech-Driven 3D Facial Animation with Transformers [46.8780140220063]
音声駆動の3D顔アニメーションは、人間の顔の複雑な形状と、3Dオーディオ視覚データの利用が制限されているため、難しい。
本研究では,トランスフォーマーをベースとした自動回帰モデルFaceFormerを提案し,長期音声コンテキストを符号化し,アニメーション3D顔メッシュのシーケンスを自動回帰予測する。
論文 参考訳(メタデータ) (2021-12-10T04:21:59Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。