Fugu-MT 論文翻訳(概要): ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech Synthesis with Diffusion and Style-based Models

論文の概要: ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech Synthesis with Diffusion and Style-based Models

arxiv url: http://arxiv.org/abs/2305.13831v1
Date: Tue, 23 May 2023 08:52:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-24 17:36:42.975435
Title: ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech Synthesis with Diffusion and Style-based Models
Title（参考訳）: ZET-Speech:拡散モデルとスタイルモデルを用いたゼロショット適応型感情制御型テキスト音声合成
Authors: Minki Kang, Wooseok Han, Sung Ju Hwang, Eunho Yang
Abstract要約: ZET-Speech はゼロショット適応型 TTS モデルである。ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
参考スコア（独自算出の注目度）: 83.07390037152963
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Emotional Text-To-Speech (TTS) is an important task in the development of systems (e.g., human-like dialogue agents) that require natural and emotional speech. Existing approaches, however, only aim to produce emotional TTS for seen speakers during training, without consideration of the generalization to unseen speakers. In this paper, we propose ZET-Speech, a zero-shot adaptive emotion-controllable TTS model that allows users to synthesize any speaker's emotional speech using only a short, neutral speech segment and the target emotion label. Specifically, to enable a zero-shot adaptive TTS model to synthesize emotional speech, we propose domain adversarial learning and guidance methods on the diffusion model. Experimental results demonstrate that ZET-Speech successfully synthesizes natural and emotional speech with the desired emotion for both seen and unseen speakers. Samples are at https://ZET-Speech.github.io/ZET-Speech-Demo/.
Abstract（参考訳）: Emotional Text-To-Speech (TTS) は、自然および感情的な音声を必要とするシステム(例えば人間のような対話エージェント)の開発において重要なタスクである。しかし、既存のアプローチは、訓練中に見る話者に感情的なttを生成することだけを目的としており、見当たらない話者への一般化を考慮していない。本稿では,ゼロショット適応型感情制御型TTSモデルであるZET-Speechを提案する。具体的には,ゼロショット適応ttsモデルが感情音声合成を可能にするために,拡散モデル上でのドメイン逆学習と指導法を提案する。実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。サンプルはhttps://ZET-Speech.github.io/ZET-Speech-Demo/にある。

関連論文リスト

MPE-TTS: Customized Emotion Zero-Shot Text-To-Speech Using Multi-Modal Prompt [6.554565427680876]
マルチモーダルプロンプトに基づくZS-TTSシステムを提案する。このシステムは、音声を内容、音色、感情、韻律に切り離し、感情のプロンプトをテキスト、画像、音声として提供する。
論文参考訳（メタデータ） (2025-05-24T01:26:02Z)
EmoVoice: LLM-based Emotional Text-To-Speech Model with Freestyle Text Prompting [48.56693150755667]
EmoVoiceは、大きな言語モデル(LLM)を利用して、きめ細かい自然言語の感情制御を可能にする、感情制御可能な新しいTSモデルである。 EmoVoice-DBは、表現力のある音声と自然言語記述によるきめ細かい感情ラベルを特徴とする、高品質な40時間感情データセットである。
論文参考訳（メタデータ） (2025-04-17T11:50:04Z)
Emotional Dimension Control in Language Model-Based Text-to-Speech: Spanning a Broad Spectrum of Human Emotions [37.075331767703986]
現在の感情的テキスト音声システムは、人間の感情の幅広い範囲を模倣する際の課題に直面している。本稿では,喜び,覚醒,支配の制御を容易にするTTSフレームワークを提案する。 TTSトレーニング中に感情的な音声データを必要とせずに、感情的なスタイルの多様性を合成することができる。
論文参考訳（メタデータ） (2024-09-25T07:16:16Z)
Attention-based Interactive Disentangling Network for Instance-level Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文参考訳（メタデータ） (2023-12-29T08:06:45Z)
EmoSpeech: Guiding FastSpeech2 Towards Emotional Text to Speech [0.0]
最先端の音声モデルは、人間の声にできるだけ近づこうとしている。感情をモデル化することは、Text-To-Speech (TTS) 研究の不可欠な部分である。 EmoSpeechは、生成された音声におけるMOSスコアと感情認識の精度に関する既存のモデルを上回る。
論文参考訳（メタデータ） (2023-06-28T19:34:16Z)
Learning Emotional Representations from Imbalanced Speech Data for Speech Emotion Recognition and Emotional Text-to-Speech [1.4986031916712106]
音声感情表現は、音声感情認識(SER)および感情テキスト音声(TTS)タスクにおいて重要な役割を果たす。モデルは大多数の中立層に過度に適合し、堅牢で効果的な感情表現を生成できない。我々は、モデルのトレーニングに拡張アプローチを使用し、不均衡なデータセットから効果的で一般化可能な感情表現を抽出できるようにする。
論文参考訳（メタデータ） (2023-06-09T07:04:56Z)
Emotional Prosody Control for Speech Generation [7.66200737962746]
本研究では,ユーザが連続的かつ有意義な感情空間から生成した音声の感情を選択することができるテキスト・トゥ・スピーチ(TTS)システムを提案する。提案システムでは,任意の話者のスタイルでテキストから音声を生成することができる。
論文参考訳（メタデータ） (2021-11-07T08:52:04Z)
EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文参考訳（メタデータ） (2021-06-17T08:34:21Z)
Reinforcement Learning for Emotional Text-to-Speech Synthesis with Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。 i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。 i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文参考訳（メタデータ） (2021-04-03T13:52:47Z)
Limited Data Emotional Voice Conversion Leveraging Text-to-Speech: Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文参考訳（メタデータ） (2021-03-31T04:56:14Z)
Seen and Unseen emotional style transfer for voice conversion with a new emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文参考訳（メタデータ） (2020-10-28T07:16:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。