論文の概要: EditEmoTalk: Controllable Speech-Driven 3D Facial Animation with Continuous Expression Editing
- arxiv url: http://arxiv.org/abs/2601.10000v1
- Date: Thu, 15 Jan 2026 02:21:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:18.953571
- Title: EditEmoTalk: Controllable Speech-Driven 3D Facial Animation with Continuous Expression Editing
- Title(参考訳): EditEmoTalk:連続表現編集による制御可能な音声駆動型3次元顔アニメーション
- Authors: Diqiong Jiang, Kai Zhu, Dan Song, Jian Chang, Chenglizhao Chen, Zhenyu Wu,
- Abstract要約: 音声駆動型3D顔アニメーションは、音声から直接現実的で表現力のある顔の動きを生成することを目的としている。
本稿では,連続的な感情編集機能を備えた音声駆動型3D顔アニメーションフレームワークEditEmoTalkを提案する。
- 参考スコア(独自算出の注目度): 24.15552429255594
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Speech-driven 3D facial animation aims to generate realistic and expressive facial motions directly from audio. While recent methods achieve high-quality lip synchronization, they often rely on discrete emotion categories, limiting continuous and fine-grained emotional control. We present EditEmoTalk, a controllable speech-driven 3D facial animation framework with continuous emotion editing. The key idea is a boundary-aware semantic embedding that learns the normal directions of inter-emotion decision boundaries, enabling a continuous expression manifold for smooth emotion manipulation. Moreover, we introduce an emotional consistency loss that enforces semantic alignment between the generated motion dynamics and the target emotion embedding through a mapping network, ensuring faithful emotional expression. Extensive experiments demonstrate that EditEmoTalk achieves superior controllability, expressiveness, and generalization while maintaining accurate lip synchronization. Code and pretrained models will be released.
- Abstract(参考訳): 音声駆動型3D顔アニメーションは、音声から直接現実的で表現力のある顔の動きを生成することを目的としている。
最近の手法は高品質な唇同期を実現するが、しばしば個別の感情カテゴリーに依存し、連続的かつきめ細かい感情制御を制限している。
本稿では,連続的な感情編集が可能な音声駆動型3D顔アニメーションフレームワークEditEmoTalkを提案する。
キーとなるアイデアは、感情間決定境界の通常の方向を学習する境界対応セマンティック埋め込みであり、スムーズな感情操作のための連続的な表現多様体を可能にする。
さらに、生成した動きのダイナミクスと、マッピングネットワークに埋め込まれた対象の感情とのセマンティックアライメントを強制し、忠実な感情表現を確実にする感情整合性損失を導入する。
拡張実験により、EditEmoTalkは、正確な唇同期を維持しつつ、優れた制御性、表現性、一般化を実現することが示された。
コードと事前訓練されたモデルがリリースされる。
関連論文リスト
- MEDTalk: Multimodal Controlled 3D Facial Animation with Dynamic Emotions by Disentangled Embedding [48.54455964043634]
MEDTalkは、きめ細かなダイナミックな会話ヘッド生成のための新しいフレームワークである。
音声と音声のテキストを統合し、フレームワイドの強度変化を予測し、静的な感情特徴を動的に調整し、リアルな感情表現を生成する。
生成した結果は、産業生産パイプラインに便利に統合できます。
論文 参考訳(メタデータ) (2025-07-08T15:14:27Z) - EmoDiffusion: Enhancing Emotional 3D Facial Animation with Latent Diffusion Models [66.67979602235015]
エモディフュージョン(EmoDiffusion)は、音声中の様々な感情をアンタングルしてリッチな3次元の表情を生成する新しいアプローチである。
iPhone上のLiveLinkFaceを使ってアニメーション専門家の指導の下で表情をキャプチャする。
論文 参考訳(メタデータ) (2025-03-14T02:54:22Z) - Emotional Speech-Driven Animation with Content-Emotion Disentanglement [51.34635009347183]
本研究では,感情表現の明示的な制御を可能にしつつ,音声からリップシンクを維持する3次元音声アバターを生成するEMOTEを提案する。
EmOTEは、同じデータでトレーニングされた最先端の方法よりも、リップシンクで音声駆動の顔アニメーションを生成する。
論文 参考訳(メタデータ) (2023-06-15T09:31:31Z) - Expressive Speech-driven Facial Animation with controllable emotions [12.201573788014622]
本稿では,音声から表情の表情を生成するための深層学習に基づく新しいアプローチを提案する。
広視野の表情を、制御可能な感情タイプと強度で表現することができる。
感情制御可能な顔アニメーションを可能にし、ターゲット表現を継続的に調整することができる。
論文 参考訳(メタデータ) (2023-01-05T11:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。