論文の概要: EmoPro: A Prompt Selection Strategy for Emotional Expression in LM-based Speech Synthesis
- arxiv url: http://arxiv.org/abs/2409.18512v1
- Date: Fri, 27 Sep 2024 07:46:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 06:58:43.320906
- Title: EmoPro: A Prompt Selection Strategy for Emotional Expression in LM-based Speech Synthesis
- Title(参考訳): EmoPro: LM音声合成における感情表現のプロンプト選択戦略
- Authors: Haoyu Wang, Chunyu Qiang, Tianrui Wang, Cheng Gong, Qiuyu Liu, Yu Jiang, Xiaobao Wang, Chenyang Wang, Chen Zhang,
- Abstract要約: 音声合成モデルは、素早い入力に基づいて生成された音声の内容、音色、感情を制御することができる。
本稿では,感情制御可能な音声合成に特化して設計された2段階のプロンプト選択戦略であるEmoProを提案する。
- 参考スコア(独自算出の注目度): 19.221477017213466
- License:
- Abstract: Recent advancements in speech synthesis models, trained on extensive datasets, have demonstrated remarkable zero-shot capabilities. These models can control content, timbre, and emotion in generated speech based on prompt inputs. Despite these advancements, the choice of prompts significantly impacts the output quality, yet most existing selection schemes do not adequately address the control of emotional intensity. To address this question, this paper proposes a two-stage prompt selection strategy EmoPro, which is specifically designed for emotionally controllable speech synthesis. This strategy focuses on selecting highly expressive and high-quality prompts by evaluating them from four perspectives: emotional expression strength, speech quality, text-emotion consistency, and model generation performance. Experimental results show that prompts selected using the proposed method result in more emotionally expressive and engaging synthesized speech compared to those obtained through baseline. Audio samples and codes will be available at https://whyrrrrun.github.io/EmoPro/.
- Abstract(参考訳): 広範囲なデータセットに基づいて訓練された音声合成モデルの最近の進歩は、顕著なゼロショット機能を示している。
これらのモデルは、素早い入力に基づいて生成された音声のコンテンツ、音色、感情を制御することができる。
これらの進歩にもかかわらず、プロンプトの選択は出力品質に大きな影響を及ぼすが、既存のほとんどの選択スキームは感情強度の制御に適切に対応していない。
そこで本研究では,感情制御可能な音声合成のための2段階のプロンプト選択戦略であるEmoProを提案する。
この戦略は、感情表現力、音声品質、テキスト・感情整合性、モデル生成性能の4つの視点から評価することで、表現力が高く高品質なプロンプトを選択することに焦点を当てている。
実験結果から,提案手法を用いて選択したプロンプトは,ベースラインを通した音声よりも感情的に表現され,有意な合成音声が得られることがわかった。
オーディオサンプルとコードはhttps://whyrrrrun.github.io/EmoPro/.comで入手できる。
関連論文リスト
- EmoSphere-TTS: Emotional Style and Intensity Modeling via Spherical Emotion Vector for Controllable Emotional Text-to-Speech [34.03787613163788]
EmoSphere-TTSは球面感情ベクトルを用いて表現的感情音声を合成し、合成音声の感情的スタイルと強度を制御する。
マルチアスペクト特性を反映して生成した音声の品質を向上させるための2つの条件付き対向ネットワークを提案する。
論文 参考訳(メタデータ) (2024-06-12T01:40:29Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - EmoSpeech: Guiding FastSpeech2 Towards Emotional Text to Speech [0.0]
最先端の音声モデルは、人間の声にできるだけ近づこうとしている。
感情をモデル化することは、Text-To-Speech (TTS) 研究の不可欠な部分である。
EmoSpeechは、生成された音声におけるMOSスコアと感情認識の精度に関する既存のモデルを上回る。
論文 参考訳(メタデータ) (2023-06-28T19:34:16Z) - Learning Emotional Representations from Imbalanced Speech Data for
Speech Emotion Recognition and Emotional Text-to-Speech [1.4986031916712106]
音声感情表現は、音声感情認識(SER)および感情テキスト音声(TTS)タスクにおいて重要な役割を果たす。
モデルは大多数の中立層に過度に適合し、堅牢で効果的な感情表現を生成できない。
我々は、モデルのトレーニングに拡張アプローチを使用し、不均衡なデータセットから効果的で一般化可能な感情表現を抽出できるようにする。
論文 参考訳(メタデータ) (2023-06-09T07:04:56Z) - ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech
Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。
ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。
実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文 参考訳(メタデータ) (2023-05-23T08:52:00Z) - Time out of Mind: Generating Rate of Speech conditioned on emotion and
speaker [0.0]
感情によって条件付けされたGANをトレーニングし、与えられた入力テキストに価値ある長さを生成する。
これらの単語長は相対的中性音声であり、テキスト音声システムに提供され、より表現力のある音声を生成する。
我々は,中性音声に対する客観的尺度の精度向上と,アウト・オブ・ボックスモデルと比較した場合の幸福音声に対する時間アライメントの改善を実現した。
論文 参考訳(メタデータ) (2023-01-29T02:58:01Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z) - Limited Data Emotional Voice Conversion Leveraging Text-to-Speech:
Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。
本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。
提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2021-03-31T04:56:14Z) - Seen and Unseen emotional style transfer for voice conversion with a new
emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。
可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。
提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-28T07:16:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。