論文の概要: EmoDiffTalk:Emotion-aware Diffusion for Editable 3D Gaussian Talking Head
- arxiv url: http://arxiv.org/abs/2512.05991v1
- Date: Sun, 30 Nov 2025 16:28:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.114947
- Title: EmoDiffTalk:Emotion-aware Diffusion for Editable 3D Gaussian Talking Head
- Title(参考訳): EmoDiffTalk:編集可能な3Dガウス音声頭のための感情認識拡散
- Authors: Chang Liu, Tianjiao Jing, Chengcheng Ma, Xuanqi Zhou, Zhengxuan Lian, Qin Jin, Hongliang Yuan, Shi-Sheng Huang,
- Abstract要約: 本稿では,新しい編集可能な3Dガウス音声ヘッド,すなわちEmoDiffTalkを紹介する。
私たちのキーとなるアイデアは、Emotion-aware Gaussian Diffusionです。
EmoDiffTalkは、最初の数少ない3Dガウス・スプラッティング・トークヘッド生成フレームワークの1つである。
- 参考スコア(独自算出の注目度): 42.33255633480444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent photo-realistic 3D talking head via 3D Gaussian Splatting still has significant shortcoming in emotional expression manipulation, especially for fine-grained and expansive dynamics emotional editing using multi-modal control. This paper introduces a new editable 3D Gaussian talking head, i.e. EmoDiffTalk. Our key idea is a novel Emotion-aware Gaussian Diffusion, which includes an action unit (AU) prompt Gaussian diffusion process for fine-grained facial animator, and moreover an accurate text-to-AU emotion controller to provide accurate and expansive dynamic emotional editing using text input. Experiments on public EmoTalk3D and RenderMe-360 datasets demonstrate superior emotional subtlety, lip-sync fidelity, and controllability of our EmoDiffTalk over previous works, establishing a principled pathway toward high-quality, diffusion-driven, multimodal editable 3D talking-head synthesis. To our best knowledge, our EmoDiffTalk is one of the first few 3D Gaussian Splatting talking-head generation framework, especially supporting continuous, multimodal emotional editing within the AU-based expression space.
- Abstract(参考訳): 近年の3次元ガウシアン・スプラッティングによる写真リアリスティックな3次元対話ヘッドは、感情的表現操作において、特にマルチモーダル制御を用いたきめ細やかで拡張的な感情的編集において、大きな欠点がある。
本稿では,新しい編集可能な3Dガウス音声ヘッド,すなわちEmoDiffTalkを紹介する。
私たちのキーとなるアイデアは、アクションユニット(AU)により、きめ細かい顔アニメーターのためのガウス拡散プロセスが促進され、テキスト入力による正確な動的感情編集を提供するための、テキストからAUまでの正確な感情制御が実現される新しい感情認識型ガウス拡散(Emotion-aware Gaussian Diffusion)である。
パブリックなEmoTalk3DとRenderMe-360データセットの実験では、これまでの研究よりも感情的な微妙さ、リップシンクの忠実さ、そしてEmoDiffTalkの制御性が優れており、高品質で拡散駆動型で多モードで編集可能な3D音声ヘッド合成への道のりが確立されている。
私たちの知る限りでは、EmoDiffTalkは最初の数少ない3Dガウス・スプティング・トーキング・ヘッド生成フレームワークの1つであり、特にAUベースの表現空間内で連続的でマルチモーダルな感情的な編集をサポートしています。
関連論文リスト
- EmoCAST: Emotional Talking Portrait via Emotive Text Description [56.42674612728354]
EmoCASTは、正確なテキスト駆動感情合成のための拡散ベースのフレームワークである。
外観モデリングでは、感情的なプロンプトはテキスト誘導の分離された感情的モジュールを通して統合される。
EmoCASTは、現実的で感情的に表現され、音声同期されたトーキーヘッドビデオを生成する、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-08-28T10:02:06Z) - MEDTalk: Multimodal Controlled 3D Facial Animation with Dynamic Emotions by Disentangled Embedding [48.54455964043634]
MEDTalkは、きめ細かなダイナミックな会話ヘッド生成のための新しいフレームワークである。
音声と音声のテキストを統合し、フレームワイドの強度変化を予測し、静的な感情特徴を動的に調整し、リアルな感情表現を生成する。
生成した結果は、産業生産パイプラインに便利に統合できます。
論文 参考訳(メタデータ) (2025-07-08T15:14:27Z) - EmoDiffusion: Enhancing Emotional 3D Facial Animation with Latent Diffusion Models [66.67979602235015]
エモディフュージョン(EmoDiffusion)は、音声中の様々な感情をアンタングルしてリッチな3次元の表情を生成する新しいアプローチである。
iPhone上のLiveLinkFaceを使ってアニメーション専門家の指導の下で表情をキャプチャする。
論文 参考訳(メタデータ) (2025-03-14T02:54:22Z) - EMOdiffhead: Continuously Emotional Control in Talking Head Generation via Diffusion [5.954758598327494]
EMOdiffhead(エモディフヘッド)は、感情的なトーキングヘッドビデオ生成のための新しい方法である。
感情のカテゴリや強度のきめ細かい制御を可能にする。
他の感情像アニメーション法と比較して、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-09-11T13:23:22Z) - EmoTalk3D: High-Fidelity Free-View Synthesis of Emotional 3D Talking Head [30.138347111341748]
本稿では,3次元音声頭部を制御可能な感情で合成する新しい手法を提案する。
本モデルでは,生成した音声の感情を制御可能とし,広視野で表現することができる。
実験により,高忠実度・感情制御可能な3次元音声頭部の創出におけるアプローチの有効性を実証した。
論文 参考訳(メタデータ) (2024-08-01T05:46:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。