論文の概要: Improved Child Text-to-Speech Synthesis through Fastpitch-based Transfer
Learning
- arxiv url: http://arxiv.org/abs/2311.04313v1
- Date: Tue, 7 Nov 2023 19:31:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 17:55:00.033541
- Title: Improved Child Text-to-Speech Synthesis through Fastpitch-based Transfer
Learning
- Title(参考訳): 高速ピッチ変換学習による音声合成の改良
- Authors: Rishabh Jain and Peter Corcoran
- Abstract要約: 本稿では,Fastpitch text-to-speech(TTS)モデルを用いて,高品質な合成子音声を生成する手法を提案する。
このアプローチでは、子話を扱うためにマルチスピーカーTSモデルを微調整する。
実子声と合成子声の間に有意な相関が認められた客観的評価を行った。
- 参考スコア(独自算出の注目度): 3.5032870024762386
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech synthesis technology has witnessed significant advancements in recent
years, enabling the creation of natural and expressive synthetic speech. One
area of particular interest is the generation of synthetic child speech, which
presents unique challenges due to children's distinct vocal characteristics and
developmental stages. This paper presents a novel approach that leverages the
Fastpitch text-to-speech (TTS) model for generating high-quality synthetic
child speech. This study uses the transfer learning training pipeline. The
approach involved finetuning a multi-speaker TTS model to work with child
speech. We use the cleaned version of the publicly available MyST dataset (55
hours) for our finetuning experiments. We also release a prototype dataset of
synthetic speech samples generated from this research together with model code
to support further research. By using a pretrained MOSNet, we conducted an
objective assessment that showed a significant correlation between real and
synthetic child voices. Additionally, to validate the intelligibility of the
generated speech, we employed an automatic speech recognition (ASR) model to
compare the word error rates (WER) of real and synthetic child voices. The
speaker similarity between the real and generated speech is also measured using
a pretrained speaker encoder.
- Abstract(参考訳): 音声合成技術は近年顕著な進歩を遂げており、自然かつ表現力のある合成音声の作成を可能にしている。
特に興味のある分野は、子どもの独特な発声特性と発達段階から独特な課題を呈する合成子音声の生成である。
本稿では,高品質合成音声を生成するためのfastpitch text-to-speech(tts)モデルを用いた新しい手法を提案する。
本研究は移動学習訓練パイプラインを用いる。
このアプローチでは、子話を扱うためにマルチスピーカーTSモデルを微調整する。
MySTデータセットのクリーン化バージョン(55時間)を、微調整実験に使用しています。
また,本研究から生成した合成音声サンプルのプロトタイプデータセットをモデルコードとともにリリースし,さらなる研究を支援する。
事前訓練したMOSNetを用いて,実子声と合成子声の有意な相関性を示す客観的評価を行った。
さらに,生成した音声の妥当性を検証するために,実音声と合成音声の単語誤り率(WER)を比較するために,自動音声認識(ASR)モデルを用いた。
また、事前訓練された話者エンコーダを用いて、実音声と生成音声の話者類似度を測定する。
関連論文リスト
- Multi-modal Adversarial Training for Zero-Shot Voice Cloning [9.823246184635103]
実音声特徴と生成音声特徴を条件付きで識別するトランスフォーマーエンコーダデコーダアーキテクチャを提案する。
我々は、FastSpeech2音響モデルに適用し、大規模マルチスピーカーデータセットであるLibriheavyのトレーニングを行うことにより、新しい対角訓練手法を導入する。
本モデルは,音声品質と話者類似度の観点から,ベースラインに対する改善を実現する。
論文 参考訳(メタデータ) (2024-08-28T16:30:41Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Toward Joint Language Modeling for Speech Units and Text [89.32163954508489]
音声単位とテキストの共用言語モデリングについて検討する。
音声とテキストの混在度を評価するための自動計測手法を提案する。
提案手法を用いて音声単位とテキストを混合することにより,SLUタスクにおける音声のみのベースラインを改良することを示す。
論文 参考訳(メタデータ) (2023-10-12T20:53:39Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - How Generative Spoken Language Modeling Encodes Noisy Speech:
Investigation from Phonetics to Syntactics [33.070158866023]
生成音声言語モデリング(GSLM)は、音声分析と合成のための音素ではなく、データから派生した学習シンボルを使用する。
本稿では,GSLMの音声・音声レベルにおける符号化と復号化の有効性について述べる。
論文 参考訳(メタデータ) (2023-06-01T14:07:19Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - Text-To-Speech Data Augmentation for Low Resource Speech Recognition [0.0]
本研究では,ASRモデルの改良を目的としたデータ拡張手法を提案する。
ケチュア語のコーパスを用いて実験を行った。
ASRモデルの単語誤り率(WER)の8.73%の改善は、合成テキストと合成音声の組み合わせを用いて得られる。
論文 参考訳(メタデータ) (2022-04-01T08:53:44Z) - A Text-to-Speech Pipeline, Evaluation Methodology, and Initial
Fine-Tuning Results for Child Speech Synthesis [3.2548794659022398]
音声合成は、現在のTTS(text-to-speech)モデルが人間の自然な音声を生成できるようになったため、長い道のりを経ている。
本研究では,子どもの音声データセットを用いて,最先端のニューラルネットワークモデルを構築するためのトレーニングパイプラインを開発し,検証した。
論文 参考訳(メタデータ) (2022-03-22T09:34:21Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Noise Robust TTS for Low Resource Speakers using Pre-trained Model and
Speech Enhancement [31.33429812278942]
提案したエンドツーエンド音声合成モデルでは,話者埋め込みと雑音表現をそれぞれモデル話者と雑音情報に対する条件入力として利用する。
実験結果から,提案手法により生成した音声は,直接調整したマルチ話者音声合成モデルよりも主観評価が優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-26T06:14:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。