論文の概要: PC-Talk: Precise Facial Animation Control for Audio-Driven Talking Face Generation
- arxiv url: http://arxiv.org/abs/2503.14295v1
- Date: Tue, 18 Mar 2025 14:35:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:17:35.624753
- Title: PC-Talk: Precise Facial Animation Control for Audio-Driven Talking Face Generation
- Title(参考訳): PC-Talk:音声駆動型発話顔生成のための精密顔アニメーション制御
- Authors: Baiqin Wang, Xiangyu Zhu, Fan Shen, Hao Xu, Zhen Lei,
- Abstract要約: 唇音のアライメント制御は話し方や唇の動きのスケールといった要素に焦点を当てるが、感情制御は現実的な感情表現の生成に重点を置いている。
暗黙的なキーポイント変形による唇音のアライメントと感情制御を可能にする新しいフレームワークPC-Talkを提案する。
本手法は,HDTFとMEADの両方のデータセット上で,優れた制御能力を示し,最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 30.404258000632986
- License:
- Abstract: Recent advancements in audio-driven talking face generation have made great progress in lip synchronization. However, current methods often lack sufficient control over facial animation such as speaking style and emotional expression, resulting in uniform outputs. In this paper, we focus on improving two key factors: lip-audio alignment and emotion control, to enhance the diversity and user-friendliness of talking videos. Lip-audio alignment control focuses on elements like speaking style and the scale of lip movements, whereas emotion control is centered on generating realistic emotional expressions, allowing for modifications in multiple attributes such as intensity. To achieve precise control of facial animation, we propose a novel framework, PC-Talk, which enables lip-audio alignment and emotion control through implicit keypoint deformations. First, our lip-audio alignment control module facilitates precise editing of speaking styles at the word level and adjusts lip movement scales to simulate varying vocal loudness levels, maintaining lip synchronization with the audio. Second, our emotion control module generates vivid emotional facial features with pure emotional deformation. This module also enables the fine modification of intensity and the combination of multiple emotions across different facial regions. Our method demonstrates outstanding control capabilities and achieves state-of-the-art performance on both HDTF and MEAD datasets in extensive experiments.
- Abstract(参考訳): 近年の音声駆動音声合成の進歩は, 唇の同期に大きく進歩している。
しかし、現在の手法では、話し方や感情表現のような顔のアニメーションを十分に制御できないことが多く、結果として均一な出力が得られる。
本稿では,口唇音のアライメントと感情制御という2つの重要な要素の改善に焦点をあて,会話ビデオの多様性とユーザフレンドリさを高めることを目的とした。
リップオーディオアライメントコントロールは、話し方や唇の動きのスケールといった要素に焦点を当て、感情制御は現実的な感情表現の生成に重点を置いており、強度などの複数の属性の修正を可能にする。
顔のアニメーションの正確な制御を実現するために,暗黙のキーポイント変形による唇音のアライメントと感情制御を可能にする新しいフレームワークPC-Talkを提案する。
まず,口唇音のアライメント制御モジュールは,単語レベルでの発声スタイルの正確な編集を容易にし,口唇の動き尺度を調整し,声の大きさの異なるレベルをシミュレートし,音声との唇の同期を維持する。
第2に、感情制御モジュールは、純粋な感情的変形を伴う鮮やかな感情的顔の特徴を生成する。
このモジュールはまた、異なる顔領域にまたがる複数の感情の組み合わせと強度の微調整を可能にする。
提案手法は,HDTFとMEADの両方のデータセット上で,優れた制御能力を実証し,最先端の性能を実現する。
関連論文リスト
- SayAnything: Audio-Driven Lip Synchronization with Conditional Video Diffusion [78.77211425667542]
SayAnythingは、オーディオ入力から唇の動きを直接合成する条件付きビデオ拡散フレームワークである。
我々の新しい設計は、潜在空間における異なる条件信号のバランスを効果的に保ち、外観、動き、地域固有の生成を正確に制御できる。
論文 参考訳(メタデータ) (2025-02-17T07:29:36Z) - Playmate: Flexible Control of Portrait Animation via 3D-Implicit Space Guided Diffusion [6.677873152109559]
Playmateは、より生き生きとした表情と話す顔を生成するために提案されている。
最初の段階では、より正確な属性の絡み合いを容易にするために、分離された暗黙の3D表現を導入する。
第2段階では、感情制御情報を潜在空間にエンコードする感情制御モジュールを導入する。
論文 参考訳(メタデータ) (2025-02-11T02:53:48Z) - EmoFace: Audio-driven Emotional 3D Face Animation [3.573880705052592]
EmoFaceは、鮮やかな感情的ダイナミクスを備えた顔アニメーションを作成するための、新しいオーディオ駆動の方法論である。
提案手法では,複数の感情で表情を生成でき,ランダムだが自然な点滅や眼球運動を生成できる。
提案手法は、ビデオゲームでプレイ不可能なキャラクターの対話アニメーションを作成し、バーチャルリアリティ環境でアバターを駆動するのに有効である。
論文 参考訳(メタデータ) (2024-07-17T11:32:16Z) - SPEAK: Speech-Driven Pose and Emotion-Adjustable Talking Head Generation [13.459396544300137]
本稿では,一般のトーキング・フェイス・ジェネレーションと区別する新しいワンショットトーキング・ヘッド・ジェネレーション・フレームワーク(SPEAK)を提案する。
顔の特徴を3つの潜在空間に分離するIRFD(Inter-Reconstructed Feature Disentanglement)モジュールを導入する。
次に、音声コンテンツと顔の潜時符号を1つの潜時空間に修正する顔編集モジュールを設計する。
論文 参考訳(メタデータ) (2024-05-12T11:41:44Z) - DREAM-Talk: Diffusion-based Realistic Emotional Audio-driven Method for
Single Image Talking Face Generation [75.90730434449874]
DREAM-Talkは2段階の拡散に基づく音声駆動フレームワークで,多彩な表現と正確な唇同期の同時生成に適したフレームワークである。
唇の動きと音声との強い相関を考慮し、音声特徴と感情スタイルを用いて、唇同期精度を向上して力学を洗練する。
定量的かつ質的にも、DREAM-Talkは表現性、リップシンクの精度、知覚品質の点で最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-12-21T05:03:18Z) - Emotional Speech-Driven Animation with Content-Emotion Disentanglement [51.34635009347183]
本研究では,感情表現の明示的な制御を可能にしつつ,音声からリップシンクを維持する3次元音声アバターを生成するEMOTEを提案する。
EmOTEは、同じデータでトレーニングされた最先端の方法よりも、リップシンクで音声駆動の顔アニメーションを生成する。
論文 参考訳(メタデータ) (2023-06-15T09:31:31Z) - Expressive Speech-driven Facial Animation with controllable emotions [12.201573788014622]
本稿では,音声から表情の表情を生成するための深層学習に基づく新しいアプローチを提案する。
広視野の表情を、制御可能な感情タイプと強度で表現することができる。
感情制御可能な顔アニメーションを可能にし、ターゲット表現を継続的に調整することができる。
論文 参考訳(メタデータ) (2023-01-05T11:17:19Z) - Learning to Dub Movies via Hierarchical Prosody Models [167.6465354313349]
テキスト、ビデオクリップ、レファレンスオーディオが与えられたとき、映画ダビング(Visual Voice clone V2C)タスクは、所望の話者音声を参照としてビデオに提示された話者の感情にマッチした音声を生成することを目的としている。
本稿では,これらの問題に階層的韻律モデルを用いて対処する新しい映画ダビングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-12-08T03:29:04Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z) - Limited Data Emotional Voice Conversion Leveraging Text-to-Speech:
Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。
本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。
提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2021-03-31T04:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。