論文の概要: Audio-Driven Talking Face Generation with Diverse yet Realistic Facial
Animations
- arxiv url: http://arxiv.org/abs/2304.08945v1
- Date: Tue, 18 Apr 2023 12:36:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 14:50:14.223997
- Title: Audio-Driven Talking Face Generation with Diverse yet Realistic Facial
Animations
- Title(参考訳): 多様なリアルな顔アニメーションを用いた音声駆動対話顔生成
- Authors: Rongliang Wu, Yingchen Yu, Fangneng Zhan, Jiahui Zhang, Xiaoqin Zhang,
Shijian Lu
- Abstract要約: DIRFAは、異なるが現実的な顔のアニメーションを同一の駆動音声から生成できる新しい方法である。
同一音声に対して妥当な顔のアニメーションの変動に対応するため,トランスフォーマーに基づく確率的マッピングネットワークを設計する。
DIRFAは現実的な顔のアニメーションを効果的に生成できることを示す。
- 参考スコア(独自算出の注目度): 61.65012981435094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-driven talking face generation, which aims to synthesize talking faces
with realistic facial animations (including accurate lip movements, vivid
facial expression details and natural head poses) corresponding to the audio,
has achieved rapid progress in recent years. However, most existing work
focuses on generating lip movements only without handling the closely
correlated facial expressions, which degrades the realism of the generated
faces greatly. This paper presents DIRFA, a novel method that can generate
talking faces with diverse yet realistic facial animations from the same
driving audio. To accommodate fair variation of plausible facial animations for
the same audio, we design a transformer-based probabilistic mapping network
that can model the variational facial animation distribution conditioned upon
the input audio and autoregressively convert the audio signals into a facial
animation sequence. In addition, we introduce a temporally-biased mask into the
mapping network, which allows to model the temporal dependency of facial
animations and produce temporally smooth facial animation sequence. With the
generated facial animation sequence and a source image, photo-realistic talking
faces can be synthesized with a generic generation network. Extensive
experiments show that DIRFA can generate talking faces with realistic facial
animations effectively.
- Abstract(参考訳): 近年,現実的な顔のアニメーション(正確な唇の動き,鮮明な表情の詳細,自然な頭部ポーズを含む)を合成することを目的とした音声駆動音声顔生成が急速に進歩している。
しかし, 既存の研究の多くは, 顔のリアリズムを著しく低下させる, 密接に相関した表情を扱わずに, 唇の動きを生成することに重点を置いている。
本稿では,同じ駆動音から多様かつリアルな顔アニメーションを生成できる新しい発話法である dirfa を提案する。
同一音声に対する可視的な顔のアニメーションの公平な変動に対応するため,入力された音声に条件付き顔のアニメーション分布をモデル化し,音声信号を自動回帰的に顔のアニメーションシーケンスに変換するトランスフォーマーベースの確率的マッピングネットワークを設計する。
さらに,顔アニメーションの時間依存性をモデル化し,時間的に滑らかな顔アニメーションを生成できる,時間偏りのあるマスクをマッピングネットワークに導入する。
生成した顔アニメーションシーケンスとソース画像により、ジェネリックジェネレーションネットワークで、フォトリアリスティックな会話顔を合成することができる。
広範な実験により、dirfaはリアルな顔アニメーションを効果的に生成できることが示されている。
関連論文リスト
- SPEAK: Speech-Driven Pose and Emotion-Adjustable Talking Head Generation [13.459396544300137]
本稿では,一般のトーキング・フェイス・ジェネレーションと区別する新しいワンショットトーキング・ヘッド・ジェネレーション・フレームワーク(SPEAK)を提案する。
顔の特徴を3つの潜在空間に分離するIRFD(Inter-Reconstructed Feature Disentanglement)モジュールを導入する。
次に、音声コンテンツと顔の潜時符号を1つの潜時空間に修正する顔編集モジュールを設計する。
論文 参考訳(メタデータ) (2024-05-12T11:41:44Z) - Breathing Life into Faces: Speech-driven 3D Facial Animation with
Natural Head Pose and Detailed Shape [19.431264557873117]
VividTalkerは、音声による3D顔アニメーションを促進するために設計された新しいフレームワークである。
顔のアニメーションを頭ポーズと口の動きに明確に切り離し、別々にエンコードする。
我々は,詳細な形状を持つ新しい3次元データセットを構築し,音声内容に合わせて顔の詳細を合成することを学ぶ。
論文 参考訳(メタデータ) (2023-10-31T07:47:19Z) - DF-3DFace: One-to-Many Speech Synchronized 3D Face Animation with
Diffusion [68.85904927374165]
拡散駆動型音声から3次元の顔メッシュ合成であるDF-3DFaceを提案する。
拡散に基づく音声と3次元顔の複雑な一対多関係をキャプチャする。
最先端の手法よりもリアルな顔アニメーションを同時に実現します。
論文 参考訳(メタデータ) (2023-08-23T04:14:55Z) - Pose-Controllable 3D Facial Animation Synthesis using Hierarchical
Audio-Vertex Attention [52.63080543011595]
階層型音声頂点アテンションを利用してポーズ制御可能な3次元顔アニメーション合成法を提案する。
提案手法により,よりリアルな表情と頭部姿勢運動が得られる。
論文 参考訳(メタデータ) (2023-02-24T09:36:31Z) - Imitator: Personalized Speech-driven 3D Facial Animation [63.57811510502906]
State-of-the-artメソッドは、ターゲットアクターの顔トポロジを変形させ、ターゲットアクターのアイデンティティ固有の話し方や顔の慣用性を考慮せずに入力オーディオを同期させる。
本稿では,音声による表情合成手法であるImitatorについて述べる。
提案手法は,ターゲットアクターの発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成する。
論文 参考訳(メタデータ) (2022-12-30T19:00:02Z) - MeshTalk: 3D Face Animation from Speech using Cross-Modality
Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。
このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文 参考訳(メタデータ) (2021-04-16T17:05:40Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z) - Identity-Preserving Realistic Talking Face Generation [4.848016645393023]
音声から現実的な顔のアニメーションを識別する手法を提案する。
教師なし学習を用いて顔のランドマークに点眼する。
また、LSGANを用いて、人物特有の顔のランドマークから顔のテクスチャを生成する。
論文 参考訳(メタデータ) (2020-05-25T18:08:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。