論文の概要: MEDTalk: Multimodal Controlled 3D Facial Animation with Dynamic Emotions by Disentangled Embedding
- arxiv url: http://arxiv.org/abs/2507.06071v1
- Date: Tue, 08 Jul 2025 15:14:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:38.251304
- Title: MEDTalk: Multimodal Controlled 3D Facial Animation with Dynamic Emotions by Disentangled Embedding
- Title(参考訳): MEDTalk: アンタングル埋め込みによる動的感情を伴うマルチモーダル制御された3次元顔アニメーション
- Authors: Chang Liu, Ye Pan, Chenyang Ding, Susanto Rahardja, Xiaokang Yang,
- Abstract要約: MEDTalkは、きめ細かなダイナミックな会話ヘッド生成のための新しいフレームワークである。
音声と音声のテキストを統合し、フレームワイドの強度変化を予測し、静的な感情特徴を動的に調整し、リアルな感情表現を生成する。
生成した結果は、産業生産パイプラインに便利に統合できます。
- 参考スコア(独自算出の注目度): 48.54455964043634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-driven emotional 3D facial animation aims to generate synchronized lip movements and vivid facial expressions. However, most existing approaches focus on static and predefined emotion labels, limiting their diversity and naturalness. To address these challenges, we propose MEDTalk, a novel framework for fine-grained and dynamic emotional talking head generation. Our approach first disentangles content and emotion embedding spaces from motion sequences using a carefully designed cross-reconstruction process, enabling independent control over lip movements and facial expressions. Beyond conventional audio-driven lip synchronization, we integrate audio and speech text, predicting frame-wise intensity variations and dynamically adjusting static emotion features to generate realistic emotional expressions. Furthermore, to enhance control and personalization, we incorporate multimodal inputs-including text descriptions and reference expression images-to guide the generation of user-specified facial expressions. With MetaHuman as the priority, our generated results can be conveniently integrated into the industrial production pipeline.
- Abstract(参考訳): 音声による感情的な3D顔のアニメーションは、唇の動きと鮮やかな表情を生成することを目的としている。
しかし、既存のほとんどのアプローチは静的で事前定義された感情ラベルに焦点を当てており、その多様性と自然性を制限する。
これらの課題に対処するため、我々は、きめ細やかな感情的対話ヘッド生成のための新しいフレームワークであるMEDTalkを提案する。
提案手法は、まず、慎重に設計されたクロスコンストラクションプロセスを用いて、動きシーケンスからコンテンツと感情の埋め込み空間を分離し、唇の動きと表情を独立に制御する。
従来の音声による唇同期以外にも、音声と音声のテキストを統合し、フレームワイドの強度変化を予測し、静的な感情特徴を動的に調整し、リアルな感情表現を生成する。
さらに、制御とパーソナライゼーションを強化するため、ユーザ特定表情の生成を導くために、テキスト記述や参照表現画像を含むマルチモーダル入力を組み込んだ。
MetaHumanを最優先とすることで、生成した結果を産業生産パイプラインに便利に統合することができます。
関連論文リスト
- Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。
我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。
次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。
第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文 参考訳(メタデータ) (2025-04-25T05:28:21Z) - Controllable Expressive 3D Facial Animation via Diffusion in a Unified Multimodal Space [7.165879904419689]
本稿では,表現可能な3次元顔アニメーションのための拡散型フレームワークを提案する。
本手法では,(1)FLAME中心のマルチモーダル感情結合戦略,(2)注意に基づく潜在拡散モデルを提案する。
本手法は, 生理学的に妥当な顔面動態を保ちながら, 21.6%の感情類似性向上を実現している。
論文 参考訳(メタデータ) (2025-04-14T01:38:01Z) - EmoDiffusion: Enhancing Emotional 3D Facial Animation with Latent Diffusion Models [66.67979602235015]
エモディフュージョン(EmoDiffusion)は、音声中の様々な感情をアンタングルしてリッチな3次元の表情を生成する新しいアプローチである。
iPhone上のLiveLinkFaceを使ってアニメーション専門家の指導の下で表情をキャプチャする。
論文 参考訳(メタデータ) (2025-03-14T02:54:22Z) - DEEPTalk: Dynamic Emotion Embedding for Probabilistic Speech-Driven 3D Face Animation [14.07086606183356]
音声駆動の3D顔アニメーションは、幅広い応用によって多くの注目を集めている。
現在の方法では、音声を通して伝達されるニュアンスな感情のアンダートーンを捉えることができず、単調な顔の動きを生成する。
音声入力から直接多様で感情的に豊かな表情を生成する新しいアプローチであるDEEPTalkを紹介する。
論文 参考訳(メタデータ) (2024-08-12T08:56:49Z) - DREAM-Talk: Diffusion-based Realistic Emotional Audio-driven Method for
Single Image Talking Face Generation [75.90730434449874]
DREAM-Talkは2段階の拡散に基づく音声駆動フレームワークで,多彩な表現と正確な唇同期の同時生成に適したフレームワークである。
唇の動きと音声との強い相関を考慮し、音声特徴と感情スタイルを用いて、唇同期精度を向上して力学を洗練する。
定量的かつ質的にも、DREAM-Talkは表現性、リップシンクの精度、知覚品質の点で最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-12-21T05:03:18Z) - GMTalker: Gaussian Mixture-based Audio-Driven Emotional Talking Video Portraits [60.05683966405544]
GMTalkerはガウスの混合合成による感情的な音声画像生成フレームワークである。
具体的には,よりフレキシブルな感情操作を実現するために,連続的かつ不整合な潜在空間を提案する。
また,多種多様な頭部ポーズ,瞬き,眼球運動を生成するために,大規模データセット上で事前訓練された正規化フローベースモーションジェネレータを導入する。
論文 参考訳(メタデータ) (2023-12-12T19:03:04Z) - Emotional Speech-Driven Animation with Content-Emotion Disentanglement [51.34635009347183]
本研究では,感情表現の明示的な制御を可能にしつつ,音声からリップシンクを維持する3次元音声アバターを生成するEMOTEを提案する。
EmOTEは、同じデータでトレーニングされた最先端の方法よりも、リップシンクで音声駆動の顔アニメーションを生成する。
論文 参考訳(メタデータ) (2023-06-15T09:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。