論文の概要: Enhancing Zero-shot Text-to-Speech Synthesis with Human Feedback
- arxiv url: http://arxiv.org/abs/2406.00654v1
- Date: Sun, 2 Jun 2024 07:54:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 03:56:22.802380
- Title: Enhancing Zero-shot Text-to-Speech Synthesis with Human Feedback
- Title(参考訳): フィードバックによるゼロショットテキスト音声合成の強化
- Authors: Chen Chen, Yuchen Hu, Wen Wu, Helin Wang, Eng Siong Chng, Chao Zhang,
- Abstract要約: テキスト音声(TTS)最適化に適したサンプリングアノテート学習フレームワークを提案する。
MOS, 単語誤り率, 話者類似度の観点から, UNO は TTS モデルのゼロショット性能を大幅に向上することを示した。
また、感情的TTSにおいて、所望の話し方にシームレスかつ柔軟に対応できるUNOの顕著な能力を示す。
- 参考スコア(独自算出の注目度): 39.54647336161013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, text-to-speech (TTS) technology has witnessed impressive advancements, particularly with large-scale training datasets, showcasing human-level speech quality and impressive zero-shot capabilities on unseen speakers. However, despite human subjective evaluations, such as the mean opinion score (MOS), remaining the gold standard for assessing the quality of synthetic speech, even state-of-the-art TTS approaches have kept human feedback isolated from training that resulted in mismatched training objectives and evaluation metrics. In this work, we investigate a novel topic of integrating subjective human evaluation into the TTS training loop. Inspired by the recent success of reinforcement learning from human feedback, we propose a comprehensive sampling-annotating-learning framework tailored to TTS optimization, namely uncertainty-aware optimization (UNO). Specifically, UNO eliminates the need for a reward model or preference data by directly maximizing the utility of speech generations while considering the uncertainty that lies in the inherent variability in subjective human speech perception and evaluations. Experimental results of both subjective and objective evaluations demonstrate that UNO considerably improves the zero-shot performance of TTS models in terms of MOS, word error rate, and speaker similarity. Additionally, we present a remarkable ability of UNO that it can adapt to the desired speaking style in emotional TTS seamlessly and flexibly.
- Abstract(参考訳): 近年、TTS(text-to-speech)技術は、特に大規模なトレーニングデータセットにおいて、人間のレベルの音声品質と、目に見えない話者に印象的なゼロショット機能を示す、印象的な進歩を目撃している。
しかしながら、平均世論スコア(MOS)のような人間の主観評価は、合成音声の質を評価するための金の基準を保っているが、最先端のTSSアプローチでさえ、トレーニングから人間のフィードバックを分離し、トレーニング目標と評価指標を誤マッチさせたままにしている。
本研究では,TTSトレーニングループに主観的人間評価を統合する新たなトピックについて検討する。
近年,人間のフィードバックによる強化学習の成功に触発されて,TTS最適化に適した総合的なサンプリングアノテーション学習フレームワーク,すなわち不確実性認識最適化(UNO)を提案する。
特に、UNOは、主観的人間の音声知覚と評価において固有の変動性にある不確実性を考慮して、音声世代の有用性を直接最大化することにより、報酬モデルや嗜好データの必要性を排除している。
主観的評価と客観的評価の両方の実験結果から, UNO は MOS, 単語誤り率, 話者類似度の観点から, TTS モデルのゼロショット性能を著しく向上することが示された。
さらに、感情的TTSにおいて、所望の話し方にシームレスかつ柔軟に対応できるUNOの顕著な能力を示す。
関連論文リスト
- Improving Machine Translation with Human Feedback: An Exploration of Quality Estimation as a Reward Model [75.66013048128302]
本研究では,QEモデルを報酬モデルとして活用し,フィードバックトレーニングにおける人間の嗜好を予測する可能性について検討する。
まず,QEに基づくフィードバックトレーニングにおいて,翻訳品質が低下する中で,報酬の増大として現れる過度な最適化問題を同定した。
問題に対処するために,ルールを用いて誤った翻訳を検知し,報酬のスコアにペナルティ項を割り当てる,シンプルで効果的な手法を採用する。
論文 参考訳(メタデータ) (2024-01-23T16:07:43Z) - Evaluating Speech Synthesis by Training Recognizers on Synthetic Speech [34.8899247119748]
合成音声におけるASRモデルの訓練と実音声における性能評価を含む評価手法を提案する。
提案手法は,SpeechLMScore や MOSNet と比較して,MOS の自然性と MOS の知性の両方に強い相関関係を示す。
論文 参考訳(メタデータ) (2023-10-01T15:52:48Z) - CCATMos: Convolutional Context-aware Transformer Network for
Non-intrusive Speech Quality Assessment [12.497279501767606]
本研究では,人間の評価スコア(MOS)を予測するために,CCAT(Convolutional Context-Aware Transformer)ネットワークと呼ばれる新しいエンド・ツー・エンドのモデル構造を提案する。
我々は、複数の言語と歪みタイプにまたがる3つのMOSアノテーション付きデータセット上でモデルを評価し、その結果をConferenceSpeech 2022 Challengeに提出する。
論文 参考訳(メタデータ) (2022-11-04T16:46:11Z) - NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level
Quality [123.97136358092585]
我々は、ベンチマークデータセット上で人間レベルの品質を実現するNaturalSpeechと呼ばれるTSシステムを開発した。
具体的には、波形生成のための変分オートエンコーダ(VAE)を利用する。
LJSpeechデータセットを用いた実験により,提案したNaturalSpeechは文レベルでの人間の記録に対して-0.01CMOSを達成した。
論文 参考訳(メタデータ) (2022-05-09T16:57:35Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - Hierarchical Prosody Modeling for Non-Autoregressive Speech Synthesis [76.39883780990489]
我々は,異なる韻律モデル設定下での非自己回帰的TSモデルの挙動を解析する。
本稿では,音素レベルの韻律的特徴を単語レベルの韻律的特徴に基づいて予測する階層的アーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-12T16:16:41Z) - Learning to Maximize Speech Quality Directly Using MOS Prediction for
Neural Text-to-Speech [15.796199345773873]
本稿では,知覚的損失の監視の下でTSモデルを訓練することにより,音声品質を向上させる新しい手法を提案する。
まず、平均世論スコア(MOS)予測モデルを事前訓練し、次に合成音声のMOSを最大化するためにTSモデルを訓練する。
提案手法は,TSモデルアーキテクチャや音声品質劣化の原因に関わらず,独立して適用することができる。
論文 参考訳(メタデータ) (2020-11-02T18:13:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。