論文の概要: Listen, Disentangle, and Control: Controllable Speech-Driven Talking Head Generation
- arxiv url: http://arxiv.org/abs/2405.07257v2
- Date: Tue, 27 Aug 2024 11:44:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 19:19:38.425657
- Title: Listen, Disentangle, and Control: Controllable Speech-Driven Talking Head Generation
- Title(参考訳): 聞き, 遠方, 制御:制御可能な音声駆動音声ヘッド生成
- Authors: Changpeng Cai, Guinan Guo, Jiao Li, Junhao Su, Chenghao He, Jing Xiao, Yuanxu Chen, Lei Dai, Feiyu Zhu,
- Abstract要約: 本稿では,一般のトーキング・フェイス・ジェネレーションと区別するワンショットトーキング・ヘッド・ジェネレーション・フレームワーク(SPEAK)を提案する。
本稿では,人間の顔の特徴を3つの潜在空間に分離するIRFD法を提案する。
次に、音声コンテンツと顔の潜時符号を1つの潜時空間に修正する顔編集モジュールを設計する。
- 参考スコア(独自算出の注目度): 13.135789543388801
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most earlier investigations on talking face generation have focused on the synchronization of lip motion and speech content. However, human head pose and facial emotions are equally important characteristics of natural human faces. While audio-driven talking face generation has seen notable advancements, existing methods either overlook facial emotions or are limited to specific individuals and cannot be applied to arbitrary subjects. In this paper, we propose a one-shot Talking Head Generation framework (SPEAK) that distinguishes itself from general Talking Face Generation by enabling emotional and postural control. Specifically, we introduce the Inter-Reconstructed Feature Disentanglement (IRFD) method to decouple human facial features into three latent spaces. We then design a face editing module that modifies speech content and facial latent codes into a single latent space. Subsequently, we present a novel generator that employs modified latent codes derived from the editing module to regulate emotional expression, head poses, and speech content in synthesizing facial animations. Extensive trials demonstrate that our method can generate realistic talking head with coordinated lip motions, authentic facial emotions, and smooth head movements. The demo video is available at the anonymous link: https://anonymous.4open.science/r/SPEAK-F56E
- Abstract(参考訳): 発話顔生成に関する最も初期の研究は、唇の動きと音声内容の同期に焦点を当てている。
しかしながら、人間の頭部のポーズと顔の感情は、自然の人間の顔の同様に重要な特徴である。
音声による発話顔生成は顕著な進歩を見せているが、既存の方法は顔の感情を見落としているか、特定の個人に限られており、任意の対象に適用できない。
本稿では、感情的・姿勢的制御を可能にして、一般のトーキング・フェイス・ジェネレーションと区別するワンショットトーキング・ヘッド・ジェネレーション・フレームワーク(SPEAK)を提案する。
具体的には、人間の顔の特徴を3つの潜在空間に分離するIRFD(Inter-Reconstructed Feature Disentanglement)手法を提案する。
次に、音声コンテンツと顔の潜時符号を1つの潜時空間に修正する顔編集モジュールを設計する。
次に、編集モジュールから派生した修正潜在コードを用いて、表情の合成における感情表現、頭部ポーズ、音声内容の制御を行う新しい生成器を提案する。
本手法は, 唇の動き, 顔の表情, スムーズな頭部の動きを調整して, リアルな話し声を生成できることを, 広範囲にわたる試行錯誤により実証した。
デモビデオは匿名リンクで公開されている。 https://anonymous.4open.science/r/SPEAK-F56E
関連論文リスト
- DEEPTalk: Dynamic Emotion Embedding for Probabilistic Speech-Driven 3D Face Animation [14.07086606183356]
音声駆動の3D顔アニメーションは、幅広い応用によって多くの注目を集めている。
現在の方法では、音声を通して伝達されるニュアンスな感情のアンダートーンを捉えることができず、単調な顔の動きを生成する。
音声入力から直接多様で感情的に豊かな表情を生成する新しいアプローチであるDEEPTalkを紹介する。
論文 参考訳(メタデータ) (2024-08-12T08:56:49Z) - Emotional Conversation: Empowering Talking Faces with Cohesive Expression, Gaze and Pose Generation [12.044308738509402]
3次元顔のランドマークを中間変数として用いた2段階の音声駆動音声顔生成フレームワークを提案する。
このフレームワークは、自己指導型学習を通じて、表現、視線、感情との協調的なアライメントを実現する。
我々のモデルは、視覚的品質と感情的アライメントの両方において、最先端のパフォーマンスを著しく向上させる。
論文 参考訳(メタデータ) (2024-06-12T06:00:00Z) - DREAM-Talk: Diffusion-based Realistic Emotional Audio-driven Method for
Single Image Talking Face Generation [75.90730434449874]
DREAM-Talkは2段階の拡散に基づく音声駆動フレームワークで,多彩な表現と正確な唇同期の同時生成に適したフレームワークである。
唇の動きと音声との強い相関を考慮し、音声特徴と感情スタイルを用いて、唇同期精度を向上して力学を洗練する。
定量的かつ質的にも、DREAM-Talkは表現性、リップシンクの精度、知覚品質の点で最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-12-21T05:03:18Z) - AdaMesh: Personalized Facial Expressions and Head Poses for Adaptive Speech-Driven 3D Facial Animation [49.4220768835379]
AdaMeshは、適応的な音声駆動の顔アニメーションアプローチである。
約10秒間の参照ビデオから、パーソナライズされた話し方を学ぶ。
鮮やかな表情と頭部のポーズを生成する。
論文 参考訳(メタデータ) (2023-10-11T06:56:08Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Emotional Speech-Driven Animation with Content-Emotion Disentanglement [51.34635009347183]
本研究では,感情表現の明示的な制御を可能にしつつ,音声からリップシンクを維持する3次元音声アバターを生成するEMOTEを提案する。
EmOTEは、同じデータでトレーニングされた最先端の方法よりも、リップシンクで音声駆動の顔アニメーションを生成する。
論文 参考訳(メタデータ) (2023-06-15T09:31:31Z) - Audio-Driven Talking Face Generation with Diverse yet Realistic Facial
Animations [61.65012981435094]
DIRFAは、異なるが現実的な顔のアニメーションを同一の駆動音声から生成できる新しい方法である。
同一音声に対して妥当な顔のアニメーションの変動に対応するため,トランスフォーマーに基づく確率的マッピングネットワークを設計する。
DIRFAは現実的な顔のアニメーションを効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-04-18T12:36:15Z) - That's What I Said: Fully-Controllable Talking Face Generation [16.570649208028343]
各顔が同じ動きパターンを持つが、異なる同一性を持つ正準空間を提案する。
2つ目は、アイデンティティ情報を排除しながら、動きに関連する特徴のみを表現するマルチモーダルモーション空間をナビゲートすることである。
提案手法では, 顔の属性を完全に制御し, 正確な唇のシンクロ化を行うことができる。
論文 参考訳(メタデータ) (2023-04-06T17:56:50Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。