論文の概要: Uncertainty-Aware 3D Emotional Talking Face Synthesis with Emotion Prior Distillation
- arxiv url: http://arxiv.org/abs/2601.19112v1
- Date: Tue, 27 Jan 2026 02:32:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.133936
- Title: Uncertainty-Aware 3D Emotional Talking Face Synthesis with Emotion Prior Distillation
- Title(参考訳): 感情事前蒸留による3次元顔合成の不確かさ認識
- Authors: Nanhan Shen, Zhilei Liu,
- Abstract要約: UA-3D Talk is Uncertainty-Aware 3D Emotional Talking Face Synthesis with emotion prior distillation。
オーディオを、アライメントのためのコンテンツ同期機能と、パーソナライゼーションのための個人固有の補完機能に分解する。
きめ細かい音声の感情抽出と感情的マイクロ表現の精密制御を可能にする。
- 参考スコア(独自算出の注目度): 7.083208476926522
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emotional Talking Face synthesis is pivotal in multimedia and signal processing, yet existing 3D methods suffer from two critical challenges: poor audio-vision emotion alignment, manifested as difficult audio emotion extraction and inadequate control over emotional micro-expressions; and a one-size-fits-all multi-view fusion strategy that overlooks uncertainty and feature quality differences, undermining rendering quality. We propose UA-3DTalk, Uncertainty-Aware 3D Emotional Talking Face Synthesis with emotion prior distillation, which has three core modules: the Prior Extraction module disentangles audio into content-synchronized features for alignment and person-specific complementary features for individualization; the Emotion Distillation module introduces a multi-modal attention-weighted fusion mechanism and 4D Gaussian encoding with multi-resolution code-books, enabling fine-grained audio emotion extraction and precise control of emotional micro-expressions; the Uncertainty-based Deformation deploys uncertainty blocks to estimate view-specific aleatoric (input noise) and epistemic (model parameters) uncertainty, realizing adaptive multi-view fusion and incorporating a multi-head decoder for Gaussian primitive optimization to mitigate the limitations of uniform-weight fusion. Extensive experiments on regular and emotional datasets show UA-3DTalk outperforms state-of-the-art methods like DEGSTalk and EDTalk by 5.2% in E-FID for emotion alignment, 3.1% in SyncC for lip synchronization, and 0.015 in LPIPS for rendering quality. Project page: https://mrask999.github.io/UA-3DTalk
- Abstract(参考訳): 感情的トーキング 顔合成はマルチメディアや信号処理において重要であるが、既存の3D手法では、難聴な音声ビジョンの感情のアライメント、感情的マイクロ表現に対する難解な音声感情の抽出と不適切な制御、不確実性や特徴品質の違いを克服し、レンダリング品質を損なう一大のマルチビュー融合戦略の2つの重要な課題に悩まされている。
UA-3DTalk, Uncertainty-Aware 3D Emotional Talking Face Synthesis with emotion prior distillation, which have three core module, the Prior extract module disentangles audio into content-synchronized features for alignment and person-specific complementary features for individualization, the Emotion Distillation module introduces a multi-modal attention-weighted fusion mechanism and 4D Gaussian encoding with multi- resolution code-books, allowing a fine-fine audio emotion extract and accurate control of emotional micro- expressionions, the Uncertainty-based deformation deploys uncertainty blocks estimated view-specific aleatoric (input noise) and epistemic (model parameters) uncertainty, realizing multi-view fusion fusion and multi-headrized a multi-headr code to mitigation to the uniformfusion。
定期的および感情的なデータセットに対する大規模な実験は、DESTalkやEDTalkのような最先端の手法を5.2%向上させ、感情アライメントはE-FID、唇同期はSyncC、3.1%、レンダリング品質はLPIPS 0.015となっている。
プロジェクトページ:https://mrask999.github.io/UA-3DTalk
関連論文リスト
- Emotion-LLaMAv2 and MMEVerse: A New Framework and Benchmark for Multimodal Emotion Understanding [45.13650362585136]
Emotion-LLaMAv2 と MMEVerse のベンチマークを行い、感情認識と推論のための標準化された評価設定とともにエンドツーエンドのパイプラインを構築した。
エンドツーエンドのマルチビューエンコーダは、外部顔検出を排除し、よりリッチな空間的および時間的マルチビュートークンを介して、ニュアンス化された感情的手がかりをキャプチャする。
LLaMA2バックボーン内における認識と認識のカリキュラムのチューニングスキームは、感情認識と自由形式の感情推論を統一する。
論文 参考訳(メタデータ) (2026-01-23T05:02:43Z) - EmoCAST: Emotional Talking Portrait via Emotive Text Description [56.42674612728354]
EmoCASTは、正確なテキスト駆動感情合成のための拡散ベースのフレームワークである。
外観モデリングでは、感情的なプロンプトはテキスト誘導の分離された感情的モジュールを通して統合される。
EmoCASTは、現実的で感情的に表現され、音声同期されたトーキーヘッドビデオを生成する、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-08-28T10:02:06Z) - Taming Transformer for Emotion-Controllable Talking Face Generation [61.835295250047196]
本稿では,感情制御可能な発話顔生成タスクを個別に行うための新しい手法を提案する。
具体的には、2つの事前学習戦略を用いて、音声を独立したコンポーネントに分解し、映像を視覚トークンの組み合わせに定量化する。
我々は、複数の感情的オーディオで調整された映像の感情を制御するMEADデータセット上で実験を行う。
論文 参考訳(メタデータ) (2025-08-20T02:16:52Z) - MEDTalk: Multimodal Controlled 3D Facial Animation with Dynamic Emotions by Disentangled Embedding [48.54455964043634]
MEDTalkは、きめ細かなダイナミックな会話ヘッド生成のための新しいフレームワークである。
音声と音声のテキストを統合し、フレームワイドの強度変化を予測し、静的な感情特徴を動的に調整し、リアルな感情表現を生成する。
生成した結果は、産業生産パイプラインに便利に統合できます。
論文 参考訳(メタデータ) (2025-07-08T15:14:27Z) - Qieemo: Speech Is All You Need in the Emotion Recognition in Conversations [1.0690007351232649]
マルチモーダルアプローチは多様なモダリティの融合による恩恵を受け、認識精度が向上する。
提案するQieemoフレームワークは,自然なフレームアライメントと感情的特徴を含む事前学習された自動音声認識(ASR)モデルを効果的に活用する。
IEMOCAPデータセットの実験結果は、Qieemoがそれぞれ3.0%、1.2%、および1.9%の絶対的な改善でベンチマークアンモダル、マルチモーダル、セルフ教師付きモデルを上回っていることを示している。
論文 参考訳(メタデータ) (2025-03-05T07:02:30Z) - MoEE: Mixture of Emotion Experts for Audio-Driven Portrait Animation [39.30784838378127]
音声アバターの生成は、正確な音声同期において大きな進歩を遂げた。
現在の手法は、単一の基本的な感情表現をモデル化するフレームワークの欠如など、基本的な課題に直面している。
本研究では,6つの基本的な感情を分離し,特異な感情状態と複合的な感情状態の両方を正確に合成する混合感情エキスパートモデルを提案する。
DH-FaceEmoVid-150データセットと組み合わせて、複雑な感情表現とニュアンスのある顔の詳細を生成するのにMoEEフレームワークが優れていることを示す。
論文 参考訳(メタデータ) (2025-01-03T13:43:21Z) - EmoDiarize: Speaker Diarization and Emotion Identification from Speech
Signals using Convolutional Neural Networks [0.0]
本研究では,音声認識における深層学習技術の統合について検討する。
既存の話者ダイアリゼーションパイプラインと、畳み込みニューラルネットワーク(CNN)上に構築された感情識別モデルを組み合わせたフレームワークを導入する。
提案モデルでは,63%の非重み付き精度が得られ,音声信号中の感情状態を正確に同定する上で,顕著な効率性を示した。
論文 参考訳(メタデータ) (2023-10-19T16:02:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。