論文の概要: A study on the efficacy of model pre-training in developing neural
text-to-speech system
- arxiv url: http://arxiv.org/abs/2110.03857v1
- Date: Fri, 8 Oct 2021 02:09:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 03:53:46.930807
- Title: A study on the efficacy of model pre-training in developing neural
text-to-speech system
- Title(参考訳): ニューラル・テキスト・ツー・スパイチシステムの開発におけるモデル事前学習の有効性に関する研究
- Authors: Guangyan Zhang, Yichong Leng, Daxin Tan, Ying Qin, Kaitao Song, Xu
Tan, Sheng Zhao, Tan Lee
- Abstract要約: 本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
- 参考スコア(独自算出の注目度): 55.947807261757056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the development of neural text-to-speech systems, model pre-training with
a large amount of non-target speakers' data is a common approach. However, in
terms of ultimately achieved system performance for target speaker(s), the
actual benefits of model pre-training are uncertain and unstable, depending
very much on the quantity and text content of training data. This study aims to
understand better why and how model pre-training can positively contribute to
TTS system performance. It is postulated that the pre-training process plays a
critical role in learning text-related variation in speech, while further
training with the target speaker's data aims to capture the speaker-related
variation. Different test sets are created with varying degrees of similarity
to target speaker data in terms of text content. Experiments show that
leveraging a speaker-independent TTS trained on speech data with diverse text
content can improve the target speaker TTS on domain-mismatched text. We also
attempt to reduce the amount of pre-training data for a new text domain and
improve the data and computational efficiency. It is found that the TTS system
could achieve comparable performance when the pre-training data is reduced to
1/8 of its original size.
- Abstract(参考訳): ニューラルテキスト音声システムの開発において、大量の非ターゲット話者のデータを用いたモデル事前学習が一般的なアプローチである。
しかし、目標話者に対する最終的なシステム性能の面では、トレーニングデータの量やテキストの内容に大きく依存して、モデル事前学習の実際の利点は不確かで不安定である。
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
音声のテキスト関連変化の学習には事前学習プロセスが重要な役割を担っていると仮定し,話者データを用いたさらなる学習は話者関連変動の把握を目標としている。
異なるテストセットは、テキストの内容の観点からターゲット話者データと様々な類似度で作成される。
多様なテキストコンテンツを持つ音声データに訓練された話者非依存ttsを活用することで、ドメインミスマッチされたテキストの話者ttsを改善できることが実験で示されている。
また、新しいテキスト領域の事前学習データの量を削減するとともに、データと計算効率を向上させる。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
関連論文リスト
- Multi-modal Adversarial Training for Zero-Shot Voice Cloning [9.823246184635103]
実音声特徴と生成音声特徴を条件付きで識別するトランスフォーマーエンコーダデコーダアーキテクチャを提案する。
我々は、FastSpeech2音響モデルに適用し、大規模マルチスピーカーデータセットであるLibriheavyのトレーニングを行うことにより、新しい対角訓練手法を導入する。
本モデルは,音声品質と話者類似度の観点から,ベースラインに対する改善を実現する。
論文 参考訳(メタデータ) (2024-08-28T16:30:41Z) - Multi-speaker Text-to-speech Training with Speaker Anonymized Data [40.70515431989197]
話者匿名化(SA)を行ったデータを用いたマルチ話者テキスト音声(TTS)モデルの訓練について検討する。
2つの信号処理ベースと3つのディープニューラルネットワークベースSAメソッドを使用して、マルチスピーカーTSデータセットであるVCTKを匿名化した。
我々は、匿名化されたトレーニングデータと、これらのデータを用いてトレーニングされた下流TSモデルの性能を評価するために、広範囲な客観的および主観的な実験を行った。
論文 参考訳(メタデータ) (2024-05-20T03:55:44Z) - Towards Selection of Text-to-speech Data to Augment ASR Training [20.115236045164355]
ニューラルネットワークをトレーニングして、合成データの実際の音声との類似性を計測する。
音声認識性能を高めるためには, 実音声とはかなりの相似性を持つ合成サンプルを組み込むことが重要である。
論文 参考訳(メタデータ) (2023-05-30T17:24:28Z) - NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level
Quality [123.97136358092585]
我々は、ベンチマークデータセット上で人間レベルの品質を実現するNaturalSpeechと呼ばれるTSシステムを開発した。
具体的には、波形生成のための変分オートエンコーダ(VAE)を利用する。
LJSpeechデータセットを用いた実験により,提案したNaturalSpeechは文レベルでの人間の記録に対して-0.01CMOSを達成した。
論文 参考訳(メタデータ) (2022-05-09T16:57:35Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Transfer Learning Framework for Low-Resource Text-to-Speech using a
Large-Scale Unlabeled Speech Corpus [10.158584616360669]
テキスト音声(TTS)モデルのトレーニングには,大規模テキストラベル付き音声コーパスが必要となる。
本稿では、事前学習に大量のラベルなし音声データセットを利用するTSの転送学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T11:26:56Z) - SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text
Joint Pre-Training [33.02912456062474]
我々は、ラベルなしテキストのBERT目的とラベルなし音声のw2v-BERT目的とを併用した単一のエンコーダを構築する。
プレトレーニング中に音声データとテキストデータの両方を組み込むことで、CoVoST2音声翻訳における下流品質が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2021-10-20T00:59:36Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。