論文の概要: A Text-to-Speech Pipeline, Evaluation Methodology, and Initial
Fine-Tuning Results for Child Speech Synthesis
- arxiv url: http://arxiv.org/abs/2203.11562v1
- Date: Tue, 22 Mar 2022 09:34:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-24 01:05:33.911203
- Title: A Text-to-Speech Pipeline, Evaluation Methodology, and Initial
Fine-Tuning Results for Child Speech Synthesis
- Title(参考訳): 音声合成のためのテキスト・音声パイプライン, 評価手法, および初期微調整結果
- Authors: Rishabh Jain and Mariam Yiwere and Dan Bigioi and Peter Corcoran and
Horia Cucu
- Abstract要約: 音声合成は、現在のTTS(text-to-speech)モデルが人間の自然な音声を生成できるようになったため、長い道のりを経ている。
本研究では,子どもの音声データセットを用いて,最先端のニューラルネットワークモデルを構築するためのトレーニングパイプラインを開発し,検証した。
- 参考スコア(独自算出の注目度): 3.2548794659022398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech synthesis has come a long way as current text-to-speech (TTS) models
can now generate natural human-sounding speech. However, most of the TTS
research focuses on using adult speech data and there has been very limited
work done on child speech synthesis. This study developed and validated a
training pipeline for fine-tuning state-of-the-art (SOTA) neural TTS models
using child speech datasets. This approach adopts a multispeaker TTS retuning
workflow to provide a transfer-learning pipeline. A publicly available child
speech dataset was cleaned to provide a smaller subset of approximately 19
hours, which formed the basis of our fine-tuning experiments. Both subjective
and objective evaluations were performed using a pretrained MOSNet for
objective evaluation and a novel subjective framework for mean opinion score
(MOS) evaluations. Subjective evaluations achieved the MOS of 3.92 for speech
intelligibility, 3.85 for voice naturalness, and 3.96 for voice consistency.
Objective evaluation using a pretrained MOSNet showed a strong correlation
between real and synthetic child voices. The final trained model was able to
synthesize child-like speech from reference audio samples as short as 5
seconds.
- Abstract(参考訳): 音声合成は、現在のTTS(text-to-speech)モデルが人間の自然な音声を生成できるように、長い道のりを経ている。
しかし、tts研究のほとんどが成人音声データの利用に焦点をあてており、児童音声合成に関する研究は限られている。
本研究では,子音声データセットを用いたSOTAニューラルネットワークモデルの訓練パイプラインの開発と評価を行った。
このアプローチでは、トランスファー学習パイプラインを提供するために、マルチスピーカーのTSリチューニングワークフローを採用する。
公に入手可能な児童音声データセットは、約19時間の小さなサブセットを提供するためにクリーニングされ、我々の微調整実験の基礎を形成しました。
主観的および客観的評価は,客観的評価のための事前学習MOSNetと,平均世論スコア(MOS)評価のための新たな主観的枠組みを用いて行った。
主観評価では、音声の知性は3.92、音声の自然性は3.85、音声の一貫性は3.96である。
事前学習したMOSNetを用いた客観的評価では,実子声と合成子声の間に強い相関が認められた。
最後に訓練されたモデルは、参照オーディオサンプルから子のような音声を5秒間合成することができた。
関連論文リスト
- Pheme: Efficient and Conversational Speech Generation [52.34331755341856]
我々は,コンパクトだが高性能な会話型TSモデルを提供するPhemeモデルシリーズを紹介する。
小規模の会話データで効率的にトレーニングでき、データ要求を10倍に削減できるが、自動回帰的TSモデルの品質にマッチする。
論文 参考訳(メタデータ) (2024-01-05T14:47:20Z) - Improved Child Text-to-Speech Synthesis through Fastpitch-based Transfer
Learning [3.5032870024762386]
本稿では,Fastpitch text-to-speech(TTS)モデルを用いて,高品質な合成子音声を生成する手法を提案する。
このアプローチでは、子話を扱うためにマルチスピーカーTSモデルを微調整する。
実子声と合成子声の間に有意な相関が認められた客観的評価を行った。
論文 参考訳(メタデータ) (2023-11-07T19:31:44Z) - Evaluating Speech Synthesis by Training Recognizers on Synthetic Speech [34.8899247119748]
合成音声におけるASRモデルの訓練と実音声における性能評価を含む評価手法を提案する。
提案手法は,SpeechLMScore や MOSNet と比較して,MOS の自然性と MOS の知性の両方に強い相関関係を示す。
論文 参考訳(メタデータ) (2023-10-01T15:52:48Z) - Time out of Mind: Generating Rate of Speech conditioned on emotion and
speaker [0.0]
感情によって条件付けされたGANをトレーニングし、与えられた入力テキストに価値ある長さを生成する。
これらの単語長は相対的中性音声であり、テキスト音声システムに提供され、より表現力のある音声を生成する。
我々は,中性音声に対する客観的尺度の精度向上と,アウト・オブ・ボックスモデルと比較した場合の幸福音声に対する時間アライメントの改善を実現した。
論文 参考訳(メタデータ) (2023-01-29T02:58:01Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - Synthesizing Personalized Non-speech Vocalization from Discrete Speech
Representations [3.0016140723286457]
非音声発声モデル(NSV)をテキスト音声タスクとして定式化し,その妥当性を検証した。
具体的には,NSVにおけるHUBERT音声単位の音声表現性を評価し,話者の音色を制御できることを検証した。
論文 参考訳(メタデータ) (2022-06-25T14:27:10Z) - SOMOS: The Samsung Open MOS Dataset for the Evaluation of Neural
Text-to-Speech Synthesis [50.236929707024245]
SOMOSデータセットは、単にニューラルテキスト音声(TTS)サンプルからなる最初の大規模平均世論スコア(MOS)データセットである。
パブリックドメイン音声データセットであるLJ音声の合成発話20Kから成っている。
論文 参考訳(メタデータ) (2022-04-06T18:45:20Z) - JETS: Jointly Training FastSpeech2 and HiFi-GAN for End to End Text to
Speech [7.476901945542385]
本稿では、簡易な訓練パイプラインを持ち、個別に学習したモデルのカスケードを上回り、エンドツーエンドのテキスト音声合成(E2E-TTS)モデルを提案する。
提案モデルでは,アライメントモジュールを用いたFastSpeech2とHiFi-GANを併用する。
LJSpeechコーパスの実験では、提案されたモデルはESPNet2-TTSの最先端実装よりも優れていた。
論文 参考訳(メタデータ) (2022-03-31T07:25:11Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - AdaSpeech 3: Adaptive Text to Speech for Spontaneous Style [111.89762723159677]
AdaSpeech 3 は,順応性のある TTS システムである。
AdaSpeech 3は自然なFPとリズムを自発的なスタイルで合成し、従来の適応TSシステムよりもずっと優れたMOSとSMOSスコアを達成する。
論文 参考訳(メタデータ) (2021-07-06T10:40:45Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。