論文の概要: Multi-speaker Emotional Text-to-speech Synthesizer
- arxiv url: http://arxiv.org/abs/2112.03557v1
- Date: Tue, 7 Dec 2021 08:12:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-08 13:31:56.086905
- Title: Multi-speaker Emotional Text-to-speech Synthesizer
- Title(参考訳): マルチスピーカー感情音声合成装置
- Authors: Sungjae Cho, Soo-Young Lee
- Abstract要約: マルチ話者感情テキスト音声合成装置は、10人の話者の7つの異なる感情の音声を表現できる。
オーディオサンプルからのすべての沈黙は、学習前に取り除かれる。
我々のモデルは、まず大きな単一話者中立データセットで訓練される。
- 参考スコア(独自算出の注目度): 7.401418995454494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a methodology to train our multi-speaker emotional text-to-speech
synthesizer that can express speech for 10 speakers' 7 different emotions. All
silences from audio samples are removed prior to learning. This results in fast
learning by our model. Curriculum learning is applied to train our model
efficiently. Our model is first trained with a large single-speaker neutral
dataset, and then trained with neutral speech from all speakers. Finally, our
model is trained using datasets of emotional speech from all speakers. In each
stage, training samples of each speaker-emotion pair have equal probability to
appear in mini-batches. Through this procedure, our model can synthesize speech
for all targeted speakers and emotions. Our synthesized audio sets are
available on our web page.
- Abstract(参考訳): 10人の話者の7つの異なる感情の音声を表現できる多話者感情テキスト合成装置を訓練する手法を提案する。
オーディオサンプルからのすべての沈黙は、学習前に取り除かれる。
これは私たちのモデルによる高速な学習をもたらす。
モデルを効率的に訓練するためにカリキュラム学習を適用する。
我々のモデルは最初、大きな単一話者中立データセットで訓練され、その後、すべての話者から中立なスピーチで訓練される。
最後に,すべての話者からの感情的発話のデータセットを用いて学習する。
各段階において、各話者・感情対のトレーニングサンプルは、ミニバッチに現れる確率が等しい。
この方法では,すべての対象話者と感情に対して音声を合成できる。
私たちの合成オーディオセットは、私たちのWebページで利用可能です。
関連論文リスト
- Text-driven Talking Face Synthesis by Reprogramming Audio-driven Models [64.14812728562596]
本稿では,事前学習した音声駆動音声合成モデルをテキスト駆動で動作させる手法を提案する。
提供されたテキスト文を記述した顔ビデオを簡単に生成できる。
論文 参考訳(メタデータ) (2023-06-28T08:22:53Z) - ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech
Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。
ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。
実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文 参考訳(メタデータ) (2023-05-23T08:52:00Z) - ACE-VC: Adaptive and Controllable Voice Conversion using Explicitly
Disentangled Self-supervised Speech Representations [12.20522794248598]
自己教師付き学習で訓練された音声表現を用いたゼロショット音声変換法を提案する。
我々は,発話を言語内容,話者特性,発話スタイルなどの特徴に分解するマルチタスクモデルを開発した。
次に,その表現から音声信号を効果的に再構成できるピッチと時間予測器を備えた合成モデルを開発する。
論文 参考訳(メタデータ) (2023-02-16T08:10:41Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - GANSpeech: Adversarial Training for High-Fidelity Multi-Speaker Speech
Synthesis [6.632254395574993]
GANSpeechは、非自己回帰型マルチスピーカTSモデルに対向訓練法を採用する高忠実度マルチスピーカTSモデルである。
主観的な聴取試験では、GANSpeechはベースラインのマルチスピーカーであるFastSpeechとFastSpeech2モデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-06-29T08:15:30Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Voice Cloning: a Multi-Speaker Text-to-Speech Synthesis Approach based
on Transfer Learning [0.802904964931021]
提案手法は,マルチスピーカ音響空間をモデル化可能なシステムを実現するために,これらの制約を克服することを目的としている。
これにより、訓練期間中に観測されていなくても、異なる話者の声に似た音声を生成することができる。
論文 参考訳(メタデータ) (2021-02-10T18:43:56Z) - VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。
本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。
音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文 参考訳(メタデータ) (2021-01-08T18:25:24Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。