論文の概要: RealTalk: Realistic Emotion-Aware Lifelike Talking-Head Synthesis
- arxiv url: http://arxiv.org/abs/2508.12163v1
- Date: Sat, 16 Aug 2025 21:28:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.596297
- Title: RealTalk: Realistic Emotion-Aware Lifelike Talking-Head Synthesis
- Title(参考訳): RealTalk:リアルな感情を意識したトーキング・ヘッド・シンセサイザー
- Authors: Wenqing Wang, Yun Fu,
- Abstract要約: 本稿では,感情の正確さ,感情の制御性の向上,頑健なアイデンティティ保存を両立させた感傷的頭脳のためのフレームワークであるRealTalkを紹介する。
RealTalkは、感情ラベルの埋め込みを合成するオーディオを駆動する3D顔のランドマークを生成するために、変分オートエンコーダを使用している。
実験により、RealTalkは感情の正確性、制御可能性、アイデンティティ保存において、既存の手法よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 47.6666060652434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emotion is a critical component of artificial social intelligence. However, while current methods excel in lip synchronization and image quality, they often fail to generate accurate and controllable emotional expressions while preserving the subject's identity. To address this challenge, we introduce RealTalk, a novel framework for synthesizing emotional talking heads with high emotion accuracy, enhanced emotion controllability, and robust identity preservation. RealTalk employs a variational autoencoder (VAE) to generate 3D facial landmarks from driving audio, which are concatenated with emotion-label embeddings using a ResNet-based landmark deformation model (LDM) to produce emotional landmarks. These landmarks and facial blendshape coefficients jointly condition a novel tri-plane attention Neural Radiance Field (NeRF) to synthesize highly realistic emotional talking heads. Extensive experiments demonstrate that RealTalk outperforms existing methods in emotion accuracy, controllability, and identity preservation, advancing the development of socially intelligent AI systems.
- Abstract(参考訳): 感情は、人工知能の重要な構成要素である。
しかし、現在の方法では、唇の同期や画質が優れているが、被験者の身元を保ちながら、正確で制御可能な感情表現を生成できない場合が多い。
この課題に対処するために、感情的トーキングヘッドを高い感情的精度で合成する新しいフレームワークであるRealTalkを紹介した。
RealTalkは、可変オートエンコーダ(VAE)を使用して、音声の駆動から3D顔のランドマークを生成し、ResNetベースのランドマーク変形モデル(LDM)を使用して感情ラベルの埋め込みと結合して感情的なランドマークを生成する。
これらのランドマークと顔のブレンドシェープ係数は、高度に現実的な感情的な対話ヘッドを合成するために、新しい3面の注意神経放射場(Neural Radiance Field、NeRF)を共同で条件付けする。
大規模な実験により、RealTalkは感情の正確性、制御可能性、アイデンティティの保存において既存の手法よりも優れており、社会的にインテリジェントなAIシステムの開発が進められている。
関連論文リスト
- MEDTalk: Multimodal Controlled 3D Facial Animation with Dynamic Emotions by Disentangled Embedding [48.54455964043634]
MEDTalkは、きめ細かなダイナミックな会話ヘッド生成のための新しいフレームワークである。
音声と音声のテキストを統合し、フレームワイドの強度変化を予測し、静的な感情特徴を動的に調整し、リアルな感情表現を生成する。
生成した結果は、産業生産パイプラインに便利に統合できます。
論文 参考訳(メタデータ) (2025-07-08T15:14:27Z) - Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。
我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。
次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。
第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文 参考訳(メタデータ) (2025-04-25T05:28:21Z) - EmoGene: Audio-Driven Emotional 3D Talking-Head Generation [47.6666060652434]
EmoGeneは、正確な感情表現を備えた高忠実でオーディオ駆動型ビデオポートレートのためのフレームワークである。
本手法では,顔のランドマークを生成するために,可変オートエンコーダ(VAE)ベースのオーディオ・トゥ・モーション・モジュールを用いる。
NeRFベースの感情ビデオモジュールは、リアルな感情的なトーキングヘッドビデオを表示する。
論文 参考訳(メタデータ) (2024-10-07T08:23:05Z) - High-fidelity Generalized Emotional Talking Face Generation with
Multi-modal Emotion Space Learning [43.09015109281053]
よりフレキシブルで汎用的な顔生成フレームワークを提案する。
具体的には、テキストプロンプトで感情スタイルを補完し、テキスト、画像、音声の感情のモダリティを統一された空間に埋め込むためにアラインド・マルチモーダル・感情エンコーダを使用する。
感情条件と音声シーケンスを構造表現に接続する感情認識型オーディオ-to-3DMM変換器を提案する。
論文 参考訳(メタデータ) (2023-05-04T05:59:34Z) - Seen and Unseen emotional style transfer for voice conversion with a new
emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。
可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。
提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-28T07:16:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。