論文の概要: Learning Frame-Wise Emotion Intensity for Audio-Driven Talking-Head Generation
- arxiv url: http://arxiv.org/abs/2409.19501v1
- Date: Sun, 29 Sep 2024 01:02:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:02:10.197657
- Title: Learning Frame-Wise Emotion Intensity for Audio-Driven Talking-Head Generation
- Title(参考訳): 音声駆動型トーキングヘッド生成のためのフレームワイズ感情強度の学習
- Authors: Jingyi Xu, Hieu Le, Zhixin Shu, Yang Wang, Yi-Hsuan Tsai, Dimitris Samaras,
- Abstract要約: そこで本研究では,発話頭生成のための微妙なシフトを捕捉し,生成する手法を提案する。
我々は,強度レベルを正確に制御し,様々な感情を生成できる話頭フレームワークを開発した。
提案手法の有効性を実験・解析により検証した。
- 参考スコア(独自算出の注目度): 59.81482518924723
- License:
- Abstract: Human emotional expression is inherently dynamic, complex, and fluid, characterized by smooth transitions in intensity throughout verbal communication. However, the modeling of such intensity fluctuations has been largely overlooked by previous audio-driven talking-head generation methods, which often results in static emotional outputs. In this paper, we explore how emotion intensity fluctuates during speech, proposing a method for capturing and generating these subtle shifts for talking-head generation. Specifically, we develop a talking-head framework that is capable of generating a variety of emotions with precise control over intensity levels. This is achieved by learning a continuous emotion latent space, where emotion types are encoded within latent orientations and emotion intensity is reflected in latent norms. In addition, to capture the dynamic intensity fluctuations, we adopt an audio-to-intensity predictor by considering the speaking tone that reflects the intensity. The training signals for this predictor are obtained through our emotion-agnostic intensity pseudo-labeling method without the need of frame-wise intensity labeling. Extensive experiments and analyses validate the effectiveness of our proposed method in accurately capturing and reproducing emotion intensity fluctuations in talking-head generation, thereby significantly enhancing the expressiveness and realism of the generated outputs.
- Abstract(参考訳): 人間の感情表現は本質的に動的、複雑、流動的であり、言語コミュニケーションを通しての強度のスムーズな推移を特徴とする。
しかし、そのような強度変動のモデル化は、しばしば静的な感情的な出力をもたらす、従来の音声駆動のトーキングヘッド生成法によってほとんど見落とされてきている。
本稿では,音声中の感情の強度がどのように変動するかを考察し,これらの微妙な変化を捉え,生成する方法を提案する。
具体的には,強度レベルを正確に制御し,様々な感情を生成できるトーキングヘッドフレームワークを開発する。
これは、感情のタイプが潜伏方向内にエンコードされ、感情の強さが潜伏ノルムに反映される連続的な感情の潜伏空間を学習することで達成される。
さらに、動的強度変動を捉えるために、その強度を反映する発声音を考慮した音声からインテンシティ予測器を採用する。
この予測器のトレーニング信号は,フレームワイド・インテンシティ・ラベリングを必要とせずに,感情に依存しないインテンシティ・擬似ラベル法によって得られる。
提案手法の有効性を検証し,提案手法の有効性を検証し,提案手法の有効性を検証した。
関連論文リスト
- EmoSphere-TTS: Emotional Style and Intensity Modeling via Spherical Emotion Vector for Controllable Emotional Text-to-Speech [34.03787613163788]
EmoSphere-TTSは球面感情ベクトルを用いて表現的感情音声を合成し、合成音声の感情的スタイルと強度を制御する。
マルチアスペクト特性を反映して生成した音声の品質を向上させるための2つの条件付き対向ネットワークを提案する。
論文 参考訳(メタデータ) (2024-06-12T01:40:29Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - AffectEcho: Speaker Independent and Language-Agnostic Emotion and Affect
Transfer for Speech Synthesis [13.918119853846838]
Affectは、原子価、覚醒、強さを含む感情的特徴であり、真正な会話を可能にする重要な属性である。
本稿では,Vector Quantized Codebookを用いた感情翻訳モデルAffectEchoを提案する。
それぞれの話者に特有のアイデンティティ、スタイル、感情のリズムを保ちながら、生成した音声の感情を制御する方法の有効性を実証する。
論文 参考訳(メタデータ) (2023-08-16T06:28:29Z) - In-the-wild Speech Emotion Conversion Using Disentangled Self-Supervised
Representations and Neural Vocoder-based Resynthesis [15.16865739526702]
本稿では,自己教師ネットワークを用いて発話の語彙的,話者的,感情的な内容を切り離す手法を提案する。
次に、HiFiGANボコーダを用いて、不整合表現をターゲット感情の音声信号に再合成する。
その結果,提案手法は入力音声の感情内容に適度に適応し,対象感情に対して自然な音声を合成できることがわかった。
論文 参考訳(メタデータ) (2023-06-02T21:02:51Z) - Semi-supervised learning for continuous emotional intensity controllable
speech synthesis with disentangled representations [16.524515747017787]
半教師付き学習を用いて感情の連続的な強度を制御する新しい手法を提案する。
実験の結果,提案手法は制御性と自然性に優れていた。
論文 参考訳(メタデータ) (2022-11-11T12:28:07Z) - Accurate Emotion Strength Assessment for Seen and Unseen Speech Based on
Data-Driven Deep Learning [70.30713251031052]
本研究では,データ駆動型深層学習モデル,すなわちSenseNetを提案する。
実験の結果,提案した強度ネットの予測感情強度は,目視と目視の両方の真理値と高い相関性を示した。
論文 参考訳(メタデータ) (2022-06-15T01:25:32Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - Emotion-aware Chat Machine: Automatic Emotional Response Generation for
Human-like Emotional Interaction [55.47134146639492]
この記事では、投稿中のセマンティクスと感情を同時にエンコードできる、未定義のエンドツーエンドニューラルネットワークを提案する。
実世界のデータを用いた実験により,提案手法は,コンテンツコヒーレンスと感情の適切性の両方の観点から,最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-06T06:26:15Z) - Seen and Unseen emotional style transfer for voice conversion with a new
emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。
可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。
提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-28T07:16:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。