論文の概要: Making Flow-Matching-Based Zero-Shot Text-to-Speech Laugh as You Like
- arxiv url: http://arxiv.org/abs/2402.07383v2
- Date: Mon, 4 Mar 2024 19:15:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 00:19:57.537204
- Title: Making Flow-Matching-Based Zero-Shot Text-to-Speech Laugh as You Like
- Title(参考訳): フローマッチングをベースとしたゼロショットテキスト音声ラグ
- Authors: Naoyuki Kanda, Xiaofei Wang, Sefik Emre Eskimez, Manthan Thakker,
Hemin Yang, Zirun Zhu, Min Tang, Canrun Li, Chung-Hsien Tsai, Zhen Xiao,
Yufei Xia, Jinzhu Li, Yanqing Liu, Sheng Zhao, Michael Zeng
- Abstract要約: ELaTEはゼロショットのTSであり、短い音声プロンプトに基づいて、あらゆる話者の自然な笑い声を生成することができる。
本研究では,条件付きフローマッチングに基づくゼロショットTSに基づくモデルを開発した。
ELaTE は従来のモデルに比べて格段に高い品質と制御性で笑い音声を生成することができることを示す。
- 参考スコア(独自算出の注目度): 49.2096391012794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Laughter is one of the most expressive and natural aspects of human speech,
conveying emotions, social cues, and humor. However, most text-to-speech (TTS)
systems lack the ability to produce realistic and appropriate laughter sounds,
limiting their applications and user experience. While there have been prior
works to generate natural laughter, they fell short in terms of controlling the
timing and variety of the laughter to be generated. In this work, we propose
ELaTE, a zero-shot TTS that can generate natural laughing speech of any speaker
based on a short audio prompt with precise control of laughter timing and
expression. Specifically, ELaTE works on the audio prompt to mimic the voice
characteristic, the text prompt to indicate the contents of the generated
speech, and the input to control the laughter expression, which can be either
the start and end times of laughter, or the additional audio prompt that
contains laughter to be mimicked. We develop our model based on the foundation
of conditional flow-matching-based zero-shot TTS, and fine-tune it with
frame-level representation from a laughter detector as additional conditioning.
With a simple scheme to mix small-scale laughter-conditioned data with
large-scale pre-training data, we demonstrate that a pre-trained zero-shot TTS
model can be readily fine-tuned to generate natural laughter with precise
controllability, without losing any quality of the pre-trained zero-shot TTS
model. Through objective and subjective evaluations, we show that ELaTE can
generate laughing speech with significantly higher quality and controllability
compared to conventional models. See https://aka.ms/elate/ for demo samples.
- Abstract(参考訳): 笑いは人間の発話の最も表現力と自然な側面の1つであり、感情、社会的手がかり、ユーモアを伝える。
しかし、ほとんどのTTSシステムは、現実的で適切な笑い声を作り出す能力がなく、アプリケーションやユーザー体験を制限している。
自然笑いを発生させる先行研究はあったが、生成する笑いのタイミングや種類を制御できるという点では不足していた。
本研究では,発話タイミングと表情を正確に制御した短い音声プロンプトに基づいて,任意の話者の自然な笑い声を生成することができるゼロショットTSであるELaTEを提案する。
具体的には、elateは音声の特徴を模倣する音声プロンプト、生成された音声の内容を示すテキストプロンプト、笑いの開始時と終了時のいずれかの笑い表現を制御する入力、あるいは模倣される笑いを含む追加の音声プロンプトに作用する。
条件付きフローマッチングに基づくゼロショットttsの基礎に基づくモデルを開発し,笑い検出器からのフレームレベル表現を付加条件として微調整した。
大規模な事前学習データと小規模な笑い条件データを混合する簡単な手法を用いて,事前学習されたゼロショットTSモデルの品質を損なうことなく,訓練済みのゼロショットTSモデルを簡単に微調整して正確な制御性で自然笑いを生成することができることを示した。
客観的および主観的評価により,従来のモデルに比べて,格段に高い品質と制御性で笑い声を生成できることが示される。
デモサンプルはhttps://aka.ms/elate/を参照。
関連論文リスト
- Laugh Now Cry Later: Controlling Time-Varying Emotional States of Flow-Matching-Based Zero-Shot Text-to-Speech [51.486112860259595]
EmoCtrl-TTSは感情制御可能なゼロショットTSであり、あらゆる話者に対してNVで高い感情的な音声を生成することができる。
高品質な感情音声生成を実現するために、EmoCtrl-TTSは擬似ラベルに基づく27,000時間以上の表現データを用いて訓練される。
論文 参考訳(メタデータ) (2024-07-17T00:54:15Z) - LaughTalk: Expressive 3D Talking Head Generation with Laughter [15.60843963655039]
音声と実笑の両方を明瞭に表現できる3次元音声ヘッドを生成するための新しいタスクを提案する。
新たに収集したデータセットは、擬似アノテーションと人間検証された3DFLAMEパラメータをペアにした2D笑いビデオからなる。
本手法は,発話音声の生成と笑い信号の表現において,既存の手法と比較して好意的に機能する。
論文 参考訳(メタデータ) (2023-11-02T05:04:33Z) - ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech
Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。
ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。
実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文 参考訳(メタデータ) (2023-05-23T08:52:00Z) - ComedicSpeech: Text To Speech For Stand-up Comedies in Low-Resource
Scenarios [5.06044403956839]
低リソースシナリオにおけるスタンドアップコメディ合成に適したTSシステムであるComeddicSpeechを開発した。
我々はプロソディエンコーダによる韻律表現を抽出し、それを柔軟な方法でTSモデルに条件付けする。
ComedicSpeechは,各コメディアンに対して10分間のトレーニングデータのみを用いて,ベースラインよりも表現性がよいことを示す実験を行った。
論文 参考訳(メタデータ) (2023-05-20T14:24:45Z) - LaughNet: synthesizing laughter utterances from waveform silhouettes and
a single laughter example [55.10864476206503]
我々は、波形シルエットを入力として、笑いを合成するLaughNetと呼ばれるモデルを提案する。
その結果,LaughNetは笑い声を適度な品質で合成し,トレーニング例の特徴を保てることがわかった。
論文 参考訳(メタデータ) (2021-10-11T00:45:07Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - AdaSpeech 3: Adaptive Text to Speech for Spontaneous Style [111.89762723159677]
AdaSpeech 3 は,順応性のある TTS システムである。
AdaSpeech 3は自然なFPとリズムを自発的なスタイルで合成し、従来の適応TSシステムよりもずっと優れたMOSとSMOSスコアを達成する。
論文 参考訳(メタデータ) (2021-07-06T10:40:45Z) - Laughter Synthesis: Combining Seq2seq modeling with Transfer Learning [6.514358246805895]
本稿では,シーケンス・ツー・シーケンスTTS合成システムに基づく音声笑い合成システムを提案する。
我々は、深層学習モデルを訓練することで、翻訳学習を活用して、アノテーションから音声と笑いの両方を生成することを学習する。
論文 参考訳(メタデータ) (2020-08-20T09:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。