論文の概要: EditEmoTalk: Controllable Speech-Driven 3D Facial Animation with Continuous Expression Editing
- arxiv url: http://arxiv.org/abs/2601.10000v1
- Date: Thu, 15 Jan 2026 02:21:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:18.953571
- Title: EditEmoTalk: Controllable Speech-Driven 3D Facial Animation with Continuous Expression Editing
- Title(参考訳): EditEmoTalk:連続表現編集による制御可能な音声駆動型3次元顔アニメーション
- Authors: Diqiong Jiang, Kai Zhu, Dan Song, Jian Chang, Chenglizhao Chen, Zhenyu Wu,
- Abstract要約: 音声駆動型3D顔アニメーションは、音声から直接現実的で表現力のある顔の動きを生成することを目的としている。
本稿では,連続的な感情編集機能を備えた音声駆動型3D顔アニメーションフレームワークEditEmoTalkを提案する。
- 参考スコア(独自算出の注目度): 24.15552429255594
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Speech-driven 3D facial animation aims to generate realistic and expressive facial motions directly from audio. While recent methods achieve high-quality lip synchronization, they often rely on discrete emotion categories, limiting continuous and fine-grained emotional control. We present EditEmoTalk, a controllable speech-driven 3D facial animation framework with continuous emotion editing. The key idea is a boundary-aware semantic embedding that learns the normal directions of inter-emotion decision boundaries, enabling a continuous expression manifold for smooth emotion manipulation. Moreover, we introduce an emotional consistency loss that enforces semantic alignment between the generated motion dynamics and the target emotion embedding through a mapping network, ensuring faithful emotional expression. Extensive experiments demonstrate that EditEmoTalk achieves superior controllability, expressiveness, and generalization while maintaining accurate lip synchronization. Code and pretrained models will be released.
- Abstract(参考訳): 音声駆動型3D顔アニメーションは、音声から直接現実的で表現力のある顔の動きを生成することを目的としている。
最近の手法は高品質な唇同期を実現するが、しばしば個別の感情カテゴリーに依存し、連続的かつきめ細かい感情制御を制限している。
本稿では,連続的な感情編集が可能な音声駆動型3D顔アニメーションフレームワークEditEmoTalkを提案する。
キーとなるアイデアは、感情間決定境界の通常の方向を学習する境界対応セマンティック埋め込みであり、スムーズな感情操作のための連続的な表現多様体を可能にする。
さらに、生成した動きのダイナミクスと、マッピングネットワークに埋め込まれた対象の感情とのセマンティックアライメントを強制し、忠実な感情表現を確実にする感情整合性損失を導入する。
拡張実験により、EditEmoTalkは、正確な唇同期を維持しつつ、優れた制御性、表現性、一般化を実現することが示された。
コードと事前訓練されたモデルがリリースされる。
関連論文リスト
- Think2Sing: Orchestrating Structured Motion Subtitles for Singing-Driven 3D Head Animation [69.50178144839275]
歌唱はより豊かな感情的なニュアンス、動的な韻律、歌詞に基づく意味論を含む。
既存の音声駆動アプローチは、しばしば過度に単純化され、感情的に平坦で、意味的に一貫性のない結果をもたらす。
Think2Singは、歌詞と音響の両方に調和したセマンティックコヒーレントで時間的に一貫した3Dヘッドアニメーションを生成する。
論文 参考訳(メタデータ) (2025-09-02T12:59:27Z) - EmoCAST: Emotional Talking Portrait via Emotive Text Description [56.42674612728354]
EmoCASTは、正確なテキスト駆動感情合成のための拡散ベースのフレームワークである。
外観モデリングでは、感情的なプロンプトはテキスト誘導の分離された感情的モジュールを通して統合される。
EmoCASTは、現実的で感情的に表現され、音声同期されたトーキーヘッドビデオを生成する、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-08-28T10:02:06Z) - MEDTalk: Multimodal Controlled 3D Facial Animation with Dynamic Emotions by Disentangled Embedding [48.54455964043634]
MEDTalkは、きめ細かなダイナミックな会話ヘッド生成のための新しいフレームワークである。
音声と音声のテキストを統合し、フレームワイドの強度変化を予測し、静的な感情特徴を動的に調整し、リアルな感情表現を生成する。
生成した結果は、産業生産パイプラインに便利に統合できます。
論文 参考訳(メタデータ) (2025-07-08T15:14:27Z) - EmoDiffusion: Enhancing Emotional 3D Facial Animation with Latent Diffusion Models [66.67979602235015]
エモディフュージョン(EmoDiffusion)は、音声中の様々な感情をアンタングルしてリッチな3次元の表情を生成する新しいアプローチである。
iPhone上のLiveLinkFaceを使ってアニメーション専門家の指導の下で表情をキャプチャする。
論文 参考訳(メタデータ) (2025-03-14T02:54:22Z) - DEEPTalk: Dynamic Emotion Embedding for Probabilistic Speech-Driven 3D Face Animation [14.07086606183356]
音声駆動の3D顔アニメーションは、幅広い応用によって多くの注目を集めている。
現在の方法では、音声を通して伝達されるニュアンスな感情のアンダートーンを捉えることができず、単調な顔の動きを生成する。
音声入力から直接多様で感情的に豊かな表情を生成する新しいアプローチであるDEEPTalkを紹介する。
論文 参考訳(メタデータ) (2024-08-12T08:56:49Z) - DREAM-Talk: Diffusion-based Realistic Emotional Audio-driven Method for
Single Image Talking Face Generation [75.90730434449874]
DREAM-Talkは2段階の拡散に基づく音声駆動フレームワークで,多彩な表現と正確な唇同期の同時生成に適したフレームワークである。
唇の動きと音声との強い相関を考慮し、音声特徴と感情スタイルを用いて、唇同期精度を向上して力学を洗練する。
定量的かつ質的にも、DREAM-Talkは表現性、リップシンクの精度、知覚品質の点で最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-12-21T05:03:18Z) - Emotional Speech-Driven Animation with Content-Emotion Disentanglement [51.34635009347183]
本研究では,感情表現の明示的な制御を可能にしつつ,音声からリップシンクを維持する3次元音声アバターを生成するEMOTEを提案する。
EmOTEは、同じデータでトレーニングされた最先端の方法よりも、リップシンクで音声駆動の顔アニメーションを生成する。
論文 参考訳(メタデータ) (2023-06-15T09:31:31Z) - Expressive Speech-driven Facial Animation with controllable emotions [12.201573788014622]
本稿では,音声から表情の表情を生成するための深層学習に基づく新しいアプローチを提案する。
広視野の表情を、制御可能な感情タイプと強度で表現することができる。
感情制御可能な顔アニメーションを可能にし、ターゲット表現を継続的に調整することができる。
論文 参考訳(メタデータ) (2023-01-05T11:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。