論文の概要: Learning to Maximize Speech Quality Directly Using MOS Prediction for
Neural Text-to-Speech
- arxiv url: http://arxiv.org/abs/2011.01174v5
- Date: Wed, 25 May 2022 07:07:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 13:16:39.945916
- Title: Learning to Maximize Speech Quality Directly Using MOS Prediction for
Neural Text-to-Speech
- Title(参考訳): mos予測を用いた音声品質の最大化のための学習
- Authors: Yeunju Choi, Youngmoon Jung, Youngjoo Suh, Hoirin Kim
- Abstract要約: 本稿では,知覚的損失の監視の下でTSモデルを訓練することにより,音声品質を向上させる新しい手法を提案する。
まず、平均世論スコア(MOS)予測モデルを事前訓練し、次に合成音声のMOSを最大化するためにTSモデルを訓練する。
提案手法は,TSモデルアーキテクチャや音声品質劣化の原因に関わらず,独立して適用することができる。
- 参考スコア(独自算出の注目度): 15.796199345773873
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although recent neural text-to-speech (TTS) systems have achieved
high-quality speech synthesis, there are cases where a TTS system generates
low-quality speech, mainly caused by limited training data or information loss
during knowledge distillation. Therefore, we propose a novel method to improve
speech quality by training a TTS model under the supervision of perceptual
loss, which measures the distance between the maximum possible speech quality
score and the predicted one. We first pre-train a mean opinion score (MOS)
prediction model and then train a TTS model to maximize the MOS of synthesized
speech using the pre-trained MOS prediction model. The proposed method can be
applied independently regardless of the TTS model architecture or the cause of
speech quality degradation and efficiently without increasing the inference
time or model complexity. The evaluation results for the MOS and phone error
rate demonstrate that our proposed approach improves previous models in terms
of both naturalness and intelligibility.
- Abstract(参考訳): 最近のニューラルテキスト音声合成システム(TTS)は高品質な音声合成を実現しているが、TSシステムは、主に知識蒸留中の限られた訓練データや情報損失によって、低品質な音声を生成する。
そこで本研究では,最大音声品質スコアと予測音声との距離を測定する知覚損失の監督下でttsモデルを訓練することにより,音声品質を改善する新しい手法を提案する。
まず, 平均オピニオンスコア(mos)予測モデルを事前学習し, 合成音声のmosを最大化するためにttsモデルを事前学習した。
提案手法はttsモデルアーキテクチャや音声品質劣化の原因に関係なく, 推定時間やモデルの複雑さを増すことなく, 効率的に適用できる。
MOSと電話の誤り率の評価結果から,提案手法は,自然性と知性の両方の観点から,従来のモデルを改善することを示す。
関連論文リスト
- EM-TTS: Efficiently Trained Low-Resource Mongolian Lightweight Text-to-Speech [4.91849983180793]
本稿では,深層畳み込みニューラルネットワークに基づくテキスト音声合成システムを提案する。
私たちのモデルは、Text2SpectrumとSSRNの2つのステージで構成されています。
実験の結果,合成音声の品質と自然性を確保しつつ,学習時間とパラメータを低減できることがわかった。
論文 参考訳(メタデータ) (2024-03-13T01:27:57Z) - Investigating Content-Aware Neural Text-To-Speech MOS Prediction Using
Prosodic and Linguistic Features [54.48824266041105]
MOS予測ニューラルモデルに基づく自動合成音声評価の最先端手法について検討した。
MOS予測システムに付加的な入力として韻律的特徴と言語的特徴を含めることを提案する。
すべてのMOS予測システムは、クラウドソースされた自然性MOS評価を備えた、TSSのみのニューラルネットワークであるSOMOSでトレーニングされている。
論文 参考訳(メタデータ) (2022-11-01T09:18:50Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - Semi-Supervised Learning Based on Reference Model for Low-resource TTS [32.731900584216724]
本稿では,ラベル付きターゲットデータに制限があるニューラルネットワークの半教師付き学習手法を提案する。
実験結果から,対象データに制限のある半教師付き学習手法は,音声合成における自然性と頑健性を達成するために,テストデータの音声品質を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2022-10-25T07:48:07Z) - NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level
Quality [123.97136358092585]
我々は、ベンチマークデータセット上で人間レベルの品質を実現するNaturalSpeechと呼ばれるTSシステムを開発した。
具体的には、波形生成のための変分オートエンコーダ(VAE)を利用する。
LJSpeechデータセットを用いた実験により,提案したNaturalSpeechは文レベルでの人間の記録に対して-0.01CMOSを達成した。
論文 参考訳(メタデータ) (2022-05-09T16:57:35Z) - SOMOS: The Samsung Open MOS Dataset for the Evaluation of Neural
Text-to-Speech Synthesis [50.236929707024245]
SOMOSデータセットは、単にニューラルテキスト音声(TTS)サンプルからなる最初の大規模平均世論スコア(MOS)データセットである。
パブリックドメイン音声データセットであるLJ音声の合成発話20Kから成っている。
論文 参考訳(メタデータ) (2022-04-06T18:45:20Z) - Deep Learning Based Assessment of Synthetic Speech Naturalness [14.463987018380468]
合成音声の自然性に対する新たな客観的予測モデルを提案する。
Text-To-SpeechまたはVoice Conversionシステムの評価に使用できる。
論文 参考訳(メタデータ) (2021-04-23T16:05:20Z) - Hierarchical Prosody Modeling for Non-Autoregressive Speech Synthesis [76.39883780990489]
我々は,異なる韻律モデル設定下での非自己回帰的TSモデルの挙動を解析する。
本稿では,音素レベルの韻律的特徴を単語レベルの韻律的特徴に基づいて予測する階層的アーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-12T16:16:41Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。