論文の概要: Controllable Expressive 3D Facial Animation via Diffusion in a Unified Multimodal Space
- arxiv url: http://arxiv.org/abs/2506.10007v1
- Date: Mon, 14 Apr 2025 01:38:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.43479
- Title: Controllable Expressive 3D Facial Animation via Diffusion in a Unified Multimodal Space
- Title(参考訳): 統一マルチモーダル空間における拡散による3次元表情制御
- Authors: Kangwei Liu, Junwu Liu, Xiaowei Yi, Jinlin Guo, Yun Cao,
- Abstract要約: 本稿では,表現可能な3次元顔アニメーションのための拡散型フレームワークを提案する。
本手法では,(1)FLAME中心のマルチモーダル感情結合戦略,(2)注意に基づく潜在拡散モデルを提案する。
本手法は, 生理学的に妥当な顔面動態を保ちながら, 21.6%の感情類似性向上を実現している。
- 参考スコア(独自算出の注目度): 7.165879904419689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-driven emotional 3D facial animation encounters two significant challenges: (1) reliance on single-modal control signals (videos, text, or emotion labels) without leveraging their complementary strengths for comprehensive emotion manipulation, and (2) deterministic regression-based mapping that constrains the stochastic nature of emotional expressions and non-verbal behaviors, limiting the expressiveness of synthesized animations. To address these challenges, we present a diffusion-based framework for controllable expressive 3D facial animation. Our approach introduces two key innovations: (1) a FLAME-centered multimodal emotion binding strategy that aligns diverse modalities (text, audio, and emotion labels) through contrastive learning, enabling flexible emotion control from multiple signal sources, and (2) an attention-based latent diffusion model with content-aware attention and emotion-guided layers, which enriches motion diversity while maintaining temporal coherence and natural facial dynamics. Extensive experiments demonstrate that our method outperforms existing approaches across most metrics, achieving a 21.6\% improvement in emotion similarity while preserving physiologically plausible facial dynamics. Project Page: https://kangweiiliu.github.io/Control_3D_Animation.
- Abstract(参考訳): 1) 総合的な感情操作に相補的な強みを活用することなく, 単一モード制御信号(ビデオ, テキスト, 感情ラベル)に依存すること, (2) 感情表現や非言語行動の確率的性質を制約し, 合成アニメーションの表現性を制限する決定論的回帰に基づくマッピング。
これらの課題に対処するために,表現可能な3次元顔アニメーションのための拡散型フレームワークを提案する。
提案手法では,(1)コントラスト学習を通じて多様なモーダル性(テキスト,音声,感情ラベル)を整合させ,複数の信号源からの柔軟な感情制御を可能にするFLAME中心のマルチモーダル感情結合戦略,(2)時間的コヒーレンスと自然な顔のダイナミクスを維持しつつ,動きの多様性を高めるコンテンツ認識層と感情誘導層を用いた注意型潜在拡散モデルを導入する。
本手法は, 感情類似度を21.6%向上させるとともに, 生理学的に妥当な顔面動態を保ちながら, 既存の手法よりも優れることを示した。
プロジェクトページ: https://kangweiiliu.github.io/Control_3D_Animation
関連論文リスト
- Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。
我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。
次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。
第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文 参考訳(メタデータ) (2025-04-25T05:28:21Z) - EmoDiffusion: Enhancing Emotional 3D Facial Animation with Latent Diffusion Models [66.67979602235015]
エモディフュージョン(EmoDiffusion)は、音声中の様々な感情をアンタングルしてリッチな3次元の表情を生成する新しいアプローチである。
iPhone上のLiveLinkFaceを使ってアニメーション専門家の指導の下で表情をキャプチャする。
論文 参考訳(メタデータ) (2025-03-14T02:54:22Z) - X-Dyna: Expressive Dynamic Human Image Animation [49.896933584815926]
X-Dynaは、単一の人間のイメージをアニメーションするための、ゼロショットで拡散ベースのパイプラインである。
対象と周辺環境の両方に対して現実的でコンテキスト対応のダイナミクスを生成する。
論文 参考訳(メタデータ) (2025-01-17T08:10:53Z) - GMTalker: Gaussian Mixture-based Audio-Driven Emotional Talking Video Portraits [60.05683966405544]
GMTalkerはガウスの混合合成による感情的な音声画像生成フレームワークである。
具体的には,よりフレキシブルな感情操作を実現するために,連続的かつ不整合な潜在空間を提案する。
また,多種多様な頭部ポーズ,瞬き,眼球運動を生成するために,大規模データセット上で事前訓練された正規化フローベースモーションジェネレータを導入する。
論文 参考訳(メタデータ) (2023-12-12T19:03:04Z) - Weakly-Supervised Emotion Transition Learning for Diverse 3D Co-speech Gesture Generation [43.04371187071256]
本研究では,3次元アバターにおける鮮明で感情的な3次元共同音声ジェスチャを生成する新しい手法を提案する。
そこで我々は,ChatGPT-4と音声インペインティング手法を用いて,高忠実度感情遷移音声を構築する。
本手法は,1つの感情条件に適応して構築した最先端モデルよりも優れる。
論文 参考訳(メタデータ) (2023-11-29T11:10:40Z) - Emotional Speech-Driven Animation with Content-Emotion Disentanglement [51.34635009347183]
本研究では,感情表現の明示的な制御を可能にしつつ,音声からリップシンクを維持する3次元音声アバターを生成するEMOTEを提案する。
EmOTEは、同じデータでトレーニングされた最先端の方法よりも、リップシンクで音声駆動の顔アニメーションを生成する。
論文 参考訳(メタデータ) (2023-06-15T09:31:31Z) - Expressive Speech-driven Facial Animation with controllable emotions [12.201573788014622]
本稿では,音声から表情の表情を生成するための深層学習に基づく新しいアプローチを提案する。
広視野の表情を、制御可能な感情タイプと強度で表現することができる。
感情制御可能な顔アニメーションを可能にし、ターゲット表現を継続的に調整することができる。
論文 参考訳(メタデータ) (2023-01-05T11:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。