論文の概要: EmoTalkingGaussian: Continuous Emotion-conditioned Talking Head Synthesis
- arxiv url: http://arxiv.org/abs/2502.00654v1
- Date: Sun, 02 Feb 2025 04:01:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:59:40.777833
- Title: EmoTalkingGaussian: Continuous Emotion-conditioned Talking Head Synthesis
- Title(参考訳): EmoTalkingGaussian:連続感情調和型トーキングヘッド合成
- Authors: Junuk Cha, Seongro Yoon, Valeriya Strizhkova, Francois Bremond, Seungryul Baek,
- Abstract要約: 3Dガウススプラッティングに基づく音声ヘッドは,高忠実度画像をリアルタイムの推論速度でレンダリングする能力に注目されている。
そこで我々は, 唇型感情顔生成装置を提案し, エモガウスモデルの訓練に利用した。
我々はEmoGaussianを公開ビデオで実験し、画像品質の点で最先端技術よりも優れた結果を得た。
- 参考スコア(独自算出の注目度): 4.895009594051343
- License:
- Abstract: 3D Gaussian splatting-based talking head synthesis has recently gained attention for its ability to render high-fidelity images with real-time inference speed. However, since it is typically trained on only a short video that lacks the diversity in facial emotions, the resultant talking heads struggle to represent a wide range of emotions. To address this issue, we propose a lip-aligned emotional face generator and leverage it to train our EmoTalkingGaussian model. It is able to manipulate facial emotions conditioned on continuous emotion values (i.e., valence and arousal); while retaining synchronization of lip movements with input audio. Additionally, to achieve the accurate lip synchronization for in-the-wild audio, we introduce a self-supervised learning method that leverages a text-to-speech network and a visual-audio synchronization network. We experiment our EmoTalkingGaussian on publicly available videos and have obtained better results than state-of-the-arts in terms of image quality (measured in PSNR, SSIM, LPIPS), emotion expression (measured in V-RMSE, A-RMSE, V-SA, A-SA, Emotion Accuracy), and lip synchronization (measured in LMD, Sync-E, Sync-C), respectively.
- Abstract(参考訳): 3Dガウススプラッティングに基づく音声ヘッド合成は,高忠実度画像をリアルタイムの推論速度でレンダリングする能力に注目されている。
しかし、通常、顔の感情の多様性に欠ける短いビデオでしか訓練されないため、結果として話される頭は幅広い感情を表現するのに苦労する。
この問題に対処するため,我々は唇に沿う感情的な顔生成器を提案し,それを活用してEmoTalkingGaussianモデルを訓練する。
連続的な感情値(すなわち、原子価と覚醒)で条件付けられた顔の感情を操作でき、入力音声と唇の動きの同期を維持することができる。
さらに,本研究では,テキスト音声合成ネットワークと視覚音声同期ネットワークを活用した自己教師付き学習手法を提案する。
我々は,公開ビデオ上でEmoTalkingGaussianを実験し,画像品質(PSNR, SSIM, LPIPS),感情表現(V-RMSE, A-RMSE, V-SA, A-SA, Emotion Accuracy),唇同期(MD, Sync-E, Sync-C)の観点から,現状よりも優れた結果を得た。
関連論文リスト
- AV-Flow: Transforming Text to Audio-Visual Human-like Interactions [101.31009576033776]
AV-Flowは、テキスト入力のみを与えられた写真リアリスティックな4D音声アバターを識別するオーディオ視覚生成モデルである。
人間の音声合成, 唇の動きの同期, 表情の鮮やかさ, 頭ポーズを実演した。
論文 参考訳(メタデータ) (2025-02-18T18:56:18Z) - Audio-Driven Emotional 3D Talking-Head Generation [47.6666060652434]
本稿では,高精度な感情表現による高忠実・音声駆動型映像像の合成システムを提案する。
本研究では,無声音声入力に応答して自然なアイドル状態(非話者)ビデオを生成するポーズサンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-07T08:23:05Z) - EMOdiffhead: Continuously Emotional Control in Talking Head Generation via Diffusion [5.954758598327494]
EMOdiffhead(エモディフヘッド)は、感情的なトーキングヘッドビデオ生成のための新しい方法である。
感情のカテゴリや強度のきめ細かい制御を可能にする。
他の感情像アニメーション法と比較して、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-09-11T13:23:22Z) - EmoFace: Audio-driven Emotional 3D Face Animation [3.573880705052592]
EmoFaceは、鮮やかな感情的ダイナミクスを備えた顔アニメーションを作成するための、新しいオーディオ駆動の方法論である。
提案手法では,複数の感情で表情を生成でき,ランダムだが自然な点滅や眼球運動を生成できる。
提案手法は、ビデオゲームでプレイ不可能なキャラクターの対話アニメーションを作成し、バーチャルリアリティ環境でアバターを駆動するのに有効である。
論文 参考訳(メタデータ) (2024-07-17T11:32:16Z) - EmoSpeaker: One-shot Fine-grained Emotion-Controlled Talking Face
Generation [34.5592743467339]
微粒な顔のアニメーションを生成する視覚属性誘導型オーディオデカップラを提案する。
より正確な感情表現を実現するために,よりきめ細かな感情係数予測モジュールを導入する。
提案手法であるEmoSpeakerは,表情の変動や唇の同期の点で,既存の感情音声生成法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-02T14:04:18Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - DREAM-Talk: Diffusion-based Realistic Emotional Audio-driven Method for
Single Image Talking Face Generation [75.90730434449874]
DREAM-Talkは2段階の拡散に基づく音声駆動フレームワークで,多彩な表現と正確な唇同期の同時生成に適したフレームワークである。
唇の動きと音声との強い相関を考慮し、音声特徴と感情スタイルを用いて、唇同期精度を向上して力学を洗練する。
定量的かつ質的にも、DREAM-Talkは表現性、リップシンクの精度、知覚品質の点で最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-12-21T05:03:18Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Emotional Speech-Driven Animation with Content-Emotion Disentanglement [51.34635009347183]
本研究では,感情表現の明示的な制御を可能にしつつ,音声からリップシンクを維持する3次元音声アバターを生成するEMOTEを提案する。
EmOTEは、同じデータでトレーニングされた最先端の方法よりも、リップシンクで音声駆動の顔アニメーションを生成する。
論文 参考訳(メタデータ) (2023-06-15T09:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。