論文の概要: Emotion-Aware Prosodic Phrasing for Expressive Text-to-Speech
- arxiv url: http://arxiv.org/abs/2309.11724v1
- Date: Thu, 21 Sep 2023 01:51:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 17:14:15.687948
- Title: Emotion-Aware Prosodic Phrasing for Expressive Text-to-Speech
- Title(参考訳): 表現型テキスト音声のための感情認識韻律表現
- Authors: Rui Liu, Bin Liu, Haizhou Li
- Abstract要約: 発話の感情的手がかりを正確に抽出し,適切なフレーズブレークを予測するために,感情認識型韻律表現モデル「textitEmoPP」を提案する。
まずESDデータセットの客観的な観察を行い、感情と韻律的フレーズの強い相関を検証した。
次に、感情表現性の観点から、EmoPPがすべてのベースラインと顕著なパフォーマンスを上回っていることを示す客観的および主観的評価を実現する。
- 参考スコア(独自算出の注目度): 47.02518401347879
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prosodic phrasing is crucial to the naturalness and intelligibility of
end-to-end Text-to-Speech (TTS). There exist both linguistic and emotional
prosody in natural speech. As the study of prosodic phrasing has been
linguistically motivated, prosodic phrasing for expressive emotion rendering
has not been well studied. In this paper, we propose an emotion-aware prosodic
phrasing model, termed \textit{EmoPP}, to mine the emotional cues of utterance
accurately and predict appropriate phrase breaks. We first conduct objective
observations on the ESD dataset to validate the strong correlation between
emotion and prosodic phrasing. Then the objective and subjective evaluations
show that the EmoPP outperforms all baselines and achieves remarkable
performance in terms of emotion expressiveness. The audio samples and the code
are available at \url{https://github.com/AI-S2-Lab/EmoPP}.
- Abstract(参考訳): 韻律的な言い回しは、エンドツーエンドテキスト・トゥ・スペーチ(TTS)の自然性と知性に不可欠である。
自然言語には言語と感情の両方の韻律が存在する。
韻律的言い回しの研究が言語的に動機づけられているため、表現的感情表現のための韻律的言い回しは十分に研究されていない。
本稿では,発話の感情的手がかりを正確に抽出し,適切なフレーズブレークを予測するために,感情認識型韻律表現モデル「textit{EmoPP}」を提案する。
まずESDデータセットの客観的な観察を行い、感情と韻律的フレーズの強い相関を検証した。
目的および主観的評価は、EmoPPがすべてのベースラインを上回り、感情表現性の点で顕著な性能を発揮することを示す。
オーディオサンプルとコードは \url{https://github.com/ai-s2-lab/emopp} で入手できる。
関連論文リスト
- Exploring speech style spaces with language models: Emotional TTS without emotion labels [8.288443063900825]
本研究では,感情ラベルやテキストプロンプトを必要とせず,テキスト認識を利用して感情的スタイルを習得する手法を提案する。
E-TTSの2段階フレームワークであるTEMOTTSについて述べる。
論文 参考訳(メタデータ) (2024-05-18T23:21:39Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - Speech Emotion Diarization: Which Emotion Appears When? [11.84193589275529]
音声感情のきめ細かい性質を反映した音声感情ダイアリゼーション(SED)を提案する。
話者ダイアリゼーションが「誰がいつ話すのか?」という問いに答えるのと同じように、音声感情ダイアリゼーションは「いつ感情が現れるのか?」という問いに答える。
論文 参考訳(メタデータ) (2023-06-22T15:47:36Z) - Learning Emotional Representations from Imbalanced Speech Data for
Speech Emotion Recognition and Emotional Text-to-Speech [1.4986031916712106]
音声感情表現は、音声感情認識(SER)および感情テキスト音声(TTS)タスクにおいて重要な役割を果たす。
モデルは大多数の中立層に過度に適合し、堅牢で効果的な感情表現を生成できない。
我々は、モデルのトレーニングに拡張アプローチを使用し、不均衡なデータセットから効果的で一般化可能な感情表現を抽出できるようにする。
論文 参考訳(メタデータ) (2023-06-09T07:04:56Z) - Speech Synthesis with Mixed Emotions [77.05097999561298]
異なる感情の音声サンプル間の相対的な差を測定する新しい定式化を提案する。
次に、私たちの定式化を、シーケンスからシーケンスまでの感情的なテキストから音声へのフレームワークに組み込む。
実行時に、感情属性ベクトルを手動で定義し、所望の感情混合を生成するためにモデルを制御する。
論文 参考訳(メタデータ) (2022-08-11T15:45:58Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z) - Limited Data Emotional Voice Conversion Leveraging Text-to-Speech:
Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。
本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。
提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2021-03-31T04:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。