論文の概要: EmoTaG: Emotion-Aware Talking Head Synthesis on Gaussian Splatting with Few-Shot Personalization
- arxiv url: http://arxiv.org/abs/2603.21332v1
- Date: Sun, 22 Mar 2026 17:17:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.362402
- Title: EmoTaG: Emotion-Aware Talking Head Synthesis on Gaussian Splatting with Few-Shot Personalization
- Title(参考訳): EmoTaG: 少数ショットパーソナライズによるガウススメッティングにおける感情認識型頭合成
- Authors: Haolan Xu, Keli Cheng, Lei Wang, Ning Bi, Xiaoming Liu,
- Abstract要約: 本稿では,Pretrain-and-Adaptパラダイムをベースとした,数発の感情認識型3D音声ヘッド合成フレームワークであるEmoTaGを紹介する。
我々の重要な洞察は、3Dガウスを直接変形するのではなく、構造化FLAMEパラメータ空間の運動予測を再構成することである。
そこで我々は,頭部ポーズと上面手がかりを補足しながら,音声から情緒的韻律を捉えたGated Residual Motion Network (GRMN)を提案する。
- 参考スコア(独自算出の注目度): 12.013744751827426
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-driven 3D talking head synthesis has advanced rapidly with Neural Radiance Fields (NeRF) and 3D Gaussian Splatting (3DGS). By leveraging rich pre-trained priors, few-shot methods enable instant personalization from just a few seconds of video. However, under expressive facial motion, existing few-shot approaches often suffer from geometric instability and audio-emotion mismatch, highlighting the need for more effective emotion-aware motion modeling. In this work, we present EmoTaG, a few-shot emotion-aware 3D talking head synthesis framework built on the Pretrain-and-Adapt paradigm. Our key insight is to reformulate motion prediction in a structured FLAME parameter space rather than directly deforming 3D Gaussians, thereby introducing explicit geometric priors that improve motion stability. Building upon this, we propose a Gated Residual Motion Network (GRMN), which captures emotional prosody from audio while supplementing head pose and upper-face cues absent from audio, enabling expressive and coherent motion generation. Extensive experiments demonstrate that EmoTaG achieves state-of-the-art performance in emotional expressiveness, lip synchronization, visual realism, and motion stability.
- Abstract(参考訳): 音声駆動3D音声ヘッド合成はNeural Radiance Fields(NeRF)と3D Gaussian Splatting(3DGS)で急速に進歩した。
訓練済みの豊富な事前情報を活用することで、ほんの数秒のビデオから即座にパーソナライズすることができる。
しかしながら、表情的な顔の動きの下では、既存の数発のアプローチは幾何学的不安定性と音声-感情のミスマッチに悩まされ、より効果的な感情認識モーションモデリングの必要性を強調している。
本稿では,Pretrain-and-Adaptパラダイムをベースとした,数発の感情認識型3D音声ヘッド合成フレームワークであるEmoTaGを紹介する。
我々の重要な洞察は、3Dガウスを直接変形させるのではなく、構造化FLAMEパラメータ空間の運動予測を再構成することであり、それによって運動安定性を向上させる明示的な幾何学的先行性を導入することである。
そこで我々は,頭部ポーズと上面手がかりを補足しながら,音声から感情的韻律を捉え,表現的かつ一貫性のある動き生成を可能にするGated Residual Motion Network (GRMN)を提案する。
EmoTaGは感情的表現性、唇の同期、視覚的リアリズム、動作安定性において、最先端のパフォーマンスを実現している。
関連論文リスト
- EmoCAST: Emotional Talking Portrait via Emotive Text Description [56.42674612728354]
EmoCASTは、正確なテキスト駆動感情合成のための拡散ベースのフレームワークである。
外観モデリングでは、感情的なプロンプトはテキスト誘導の分離された感情的モジュールを通して統合される。
EmoCASTは、現実的で感情的に表現され、音声同期されたトーキーヘッドビデオを生成する、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-08-28T10:02:06Z) - MEDTalk: Multimodal Controlled 3D Facial Animation with Dynamic Emotions by Disentangled Embedding [48.54455964043634]
MEDTalkは、きめ細かなダイナミックな会話ヘッド生成のための新しいフレームワークである。
音声と音声のテキストを統合し、フレームワイドの強度変化を予測し、静的な感情特徴を動的に調整し、リアルな感情表現を生成する。
生成した結果は、産業生産パイプラインに便利に統合できます。
論文 参考訳(メタデータ) (2025-07-08T15:14:27Z) - DEEPTalk: Dynamic Emotion Embedding for Probabilistic Speech-Driven 3D Face Animation [14.07086606183356]
音声駆動の3D顔アニメーションは、幅広い応用によって多くの注目を集めている。
現在の方法では、音声を通して伝達されるニュアンスな感情のアンダートーンを捉えることができず、単調な顔の動きを生成する。
音声入力から直接多様で感情的に豊かな表情を生成する新しいアプローチであるDEEPTalkを紹介する。
論文 参考訳(メタデータ) (2024-08-12T08:56:49Z) - EmoTalk3D: High-Fidelity Free-View Synthesis of Emotional 3D Talking Head [30.138347111341748]
本稿では,3次元音声頭部を制御可能な感情で合成する新しい手法を提案する。
本モデルでは,生成した音声の感情を制御可能とし,広視野で表現することができる。
実験により,高忠実度・感情制御可能な3次元音声頭部の創出におけるアプローチの有効性を実証した。
論文 参考訳(メタデータ) (2024-08-01T05:46:57Z) - FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - GMTalker: Gaussian Mixture-based Audio-Driven Emotional Talking Video Portraits [60.05683966405544]
GMTalkerはガウスの混合合成による感情的な音声画像生成フレームワークである。
具体的には,よりフレキシブルな感情操作を実現するために,連続的かつ不整合な潜在空間を提案する。
また,多種多様な頭部ポーズ,瞬き,眼球運動を生成するために,大規模データセット上で事前訓練された正規化フローベースモーションジェネレータを導入する。
論文 参考訳(メタデータ) (2023-12-12T19:03:04Z) - EmotionGesture: Audio-Driven Diverse Emotional Co-Speech 3D Gesture
Generation [24.547098909937034]
EmotionGestureは、オーディオから、鮮明で多様な感情的な3Dジェスチャーを合成するための新しいフレームワークである。
我々のフレームワークは最先端の3Dジェスチャーよりも優れており、鮮明で多様な感情的な3Dジェスチャーを実現している。
論文 参考訳(メタデータ) (2023-05-30T09:47:29Z) - Controllable Radiance Fields for Dynamic Face Synthesis [125.48602100893845]
非剛性運動を示す顔力学の生成モデル合成を明示的に制御する方法について検討する。
制御可能な放射場(CoRF)
頭部画像・映像データから,CoRFは3次元認識可能であり,識別,視聴方向,動きの編集が可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T23:17:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。