論文の概要: EmoHead: Emotional Talking Head via Manipulating Semantic Expression Parameters
- arxiv url: http://arxiv.org/abs/2503.19416v1
- Date: Tue, 25 Mar 2025 07:51:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:55:24.790234
- Title: EmoHead: Emotional Talking Head via Manipulating Semantic Expression Parameters
- Title(参考訳): エモヘッド:セマンティック表現パラメータの操作による感情的トーキングヘッド
- Authors: Xuli Shen, Hua Cai, Dingding Yu, Weilin Shen, Qing Xu, Xiangyang Xue,
- Abstract要約: 提案するEmoHeadは,音声ヘッドビデオのセマンティックな表現パラメータを用いて合成する。
本研究は,様々な感情に対する音声入力からの相関性を高めることを目的としている。
我々は、訓練済みの超平面を利用して、垂直方向に沿って探索することで顔の動きを洗練する。
- 参考スコア(独自算出の注目度): 35.98628983591868
- License:
- Abstract: Generating emotion-specific talking head videos from audio input is an important and complex challenge for human-machine interaction. However, emotion is highly abstract concept with ambiguous boundaries, and it necessitates disentangled expression parameters to generate emotionally expressive talking head videos. In this work, we present EmoHead to synthesize talking head videos via semantic expression parameters. To predict expression parameter for arbitrary audio input, we apply an audio-expression module that can be specified by an emotion tag. This module aims to enhance correlation from audio input across various emotions. Furthermore, we leverage pre-trained hyperplane to refine facial movements by probing along the vertical direction. Finally, the refined expression parameters regularize neural radiance fields and facilitate the emotion-consistent generation of talking head videos. Experimental results demonstrate that semantic expression parameters lead to better reconstruction quality and controllability.
- Abstract(参考訳): 音声入力から感情特異的な音声ヘッドビデオを生成することは、人間と機械の相互作用にとって重要かつ複雑な課題である。
しかし、感情は曖昧な境界を持つ非常に抽象的な概念であり、感情的に表現力のある会話ヘッドビデオを生成するために、非絡み合った表現パラメータを必要とする。
本研究では,EmoHeadを用いて音声ヘッドビデオのセマンティック表現パラメータによる合成を行う。
任意の音声入力に対する表現パラメータを予測するために,感情タグで指定可能な音声圧縮モジュールを適用した。
本モジュールは,様々な感情に対する音声入力からの相関性を高めることを目的としている。
さらに、トレーニング済みの超平面を利用して、垂直方向に沿って探索することで顔の動きを洗練させる。
最後に、改良された表現パラメータは、ニューラルラディアンスフィールドを規則化し、音声ヘッドビデオの感情一貫性の生成を促進する。
実験により,セマンティックな表現パラメータが再現性や制御性の向上につながることが示された。
関連論文リスト
- EmotiveTalk: Expressive Talking Head Generation through Audio Information Decoupling and Emotional Video Diffusion [49.55774551366049]
拡散モデルは、会話のヘッドジェネレーションの分野に革命をもたらしたが、長期的には表現性、制御可能性、安定性に課題に直面している。
これらの問題に対処するためのEmotiveTalkフレームワークを提案する。
実験結果から,EmotiveTalkは表現力のある対話型ヘッドビデオを生成することができ,長時間発生時の感情の制御性と安定性を保証できることがわかった。
論文 参考訳(メタデータ) (2024-11-23T04:38:51Z) - Audio-Driven Emotional 3D Talking-Head Generation [47.6666060652434]
本稿では,高精度な感情表現による高忠実・音声駆動型映像像の合成システムを提案する。
本研究では,無声音声入力に応答して自然なアイドル状態(非話者)ビデオを生成するポーズサンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-07T08:23:05Z) - EMOdiffhead: Continuously Emotional Control in Talking Head Generation via Diffusion [5.954758598327494]
EMOdiffhead(エモディフヘッド)は、感情的なトーキングヘッドビデオ生成のための新しい方法である。
感情のカテゴリや強度のきめ細かい制御を可能にする。
他の感情像アニメーション法と比較して、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-09-11T13:23:22Z) - EmoSpeaker: One-shot Fine-grained Emotion-Controlled Talking Face
Generation [34.5592743467339]
微粒な顔のアニメーションを生成する視覚属性誘導型オーディオデカップラを提案する。
より正確な感情表現を実現するために,よりきめ細かな感情係数予測モジュールを導入する。
提案手法であるEmoSpeakerは,表情の変動や唇の同期の点で,既存の感情音声生成法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-02T14:04:18Z) - DREAM-Talk: Diffusion-based Realistic Emotional Audio-driven Method for
Single Image Talking Face Generation [75.90730434449874]
DREAM-Talkは2段階の拡散に基づく音声駆動フレームワークで,多彩な表現と正確な唇同期の同時生成に適したフレームワークである。
唇の動きと音声との強い相関を考慮し、音声特徴と感情スタイルを用いて、唇同期精度を向上して力学を洗練する。
定量的かつ質的にも、DREAM-Talkは表現性、リップシンクの精度、知覚品質の点で最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-12-21T05:03:18Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - Emotional Speech-Driven Animation with Content-Emotion Disentanglement [51.34635009347183]
本研究では,感情表現の明示的な制御を可能にしつつ,音声からリップシンクを維持する3次元音声アバターを生成するEMOTEを提案する。
EmOTEは、同じデータでトレーニングされた最先端の方法よりも、リップシンクで音声駆動の顔アニメーションを生成する。
論文 参考訳(メタデータ) (2023-06-15T09:31:31Z) - EAMM: One-Shot Emotional Talking Face via Audio-Based Emotion-Aware
Motion Model [32.19539143308341]
本研究では,感情認識運動モデル(EAMM)を提案する。
両モジュールの結果を組み込むことで,任意の被験者に対して良好な話し声を生成できる。
論文 参考訳(メタデータ) (2022-05-30T17:39:45Z) - Speech Driven Talking Face Generation from a Single Image and an Emotion
Condition [28.52180268019401]
音声駆動音声合成における視覚的感情表現のレンダリングのための新しい手法を提案する。
本研究では, 音声音声, 単一顔画像, カテゴリー感情ラベルを入力として, エンドツーエンドの音声音声生成システムの設計を行う。
画像品質,視覚的同期,視覚的感情表現を客観的に評価した結果,提案システムは最先端のベースラインシステムよりも優れていた。
論文 参考訳(メタデータ) (2020-08-08T20:46:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。