論文の概要: Investigating Content-Aware Neural Text-To-Speech MOS Prediction Using
Prosodic and Linguistic Features
- arxiv url: http://arxiv.org/abs/2211.00342v1
- Date: Tue, 1 Nov 2022 09:18:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 13:23:56.945359
- Title: Investigating Content-Aware Neural Text-To-Speech MOS Prediction Using
Prosodic and Linguistic Features
- Title(参考訳): 韻律的特徴と言語的特徴を用いた内容認識型ニューラルテキスト音声MOS予測の検討
- Authors: Alexandra Vioni, Georgia Maniati, Nikolaos Ellinas, June Sig Sung,
Inchul Hwang, Aimilios Chalamandaris, Pirros Tsiakoulis
- Abstract要約: MOS予測ニューラルモデルに基づく自動合成音声評価の最先端手法について検討した。
MOS予測システムに付加的な入力として韻律的特徴と言語的特徴を含めることを提案する。
すべてのMOS予測システムは、クラウドソースされた自然性MOS評価を備えた、TSSのみのニューラルネットワークであるSOMOSでトレーニングされている。
- 参考スコア(独自算出の注目度): 54.48824266041105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current state-of-the-art methods for automatic synthetic speech evaluation
are based on MOS prediction neural models. Such MOS prediction models include
MOSNet and LDNet that use spectral features as input, and SSL-MOS that relies
on a pretrained self-supervised learning model that directly uses the speech
signal as input. In modern high-quality neural TTS systems, prosodic
appropriateness with regard to the spoken content is a decisive factor for
speech naturalness. For this reason, we propose to include prosodic and
linguistic features as additional inputs in MOS prediction systems, and
evaluate their impact on the prediction outcome. We consider phoneme level F0
and duration features as prosodic inputs, as well as Tacotron encoder outputs,
POS tags and BERT embeddings as higher-level linguistic inputs. All MOS
prediction systems are trained on SOMOS, a neural TTS-only dataset with
crowdsourced naturalness MOS evaluations. Results show that the proposed
additional features are beneficial in the MOS prediction task, by improving the
predicted MOS scores' correlation with the ground truths, both at
utterance-level and system-level predictions.
- Abstract(参考訳): MOS予測ニューラルモデルに基づく自動合成音声評価の最先端手法について検討した。
このようなMOS予測モデルには、スペクトル特徴を入力として使用するMOSNetと、音声信号を直接入力として使用する事前学習モデルに依存するSSL-MOSが含まれる。
現代の高品質のニューラルttsシステムでは、音声コンテンツに対する韻律的適切性は、音声自然性にとって決定的な要因である。
そこで本研究では,MOS予測システムに付加的な入力として韻律的・言語的特徴を含め,予測結果への影響を評価することを提案する。
音素レベルF0と持続時間の特徴を韻律入力とみなし、タコトロンエンコーダ出力、POSタグ、BERT埋め込みを高レベル言語入力とみなす。
すべてのMOS予測システムは、クラウドソースされた自然性MOS評価を備えた、TSSのみのニューラルネットワークであるSOMOSでトレーニングされている。
提案手法は,発話レベルおよびシステムレベルの予測において,予測されたMOSスコアと基礎的事実との相関性を改善することにより,MOS予測タスクにおいて有益であることを示す。
関連論文リスト
- An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Resource-Efficient Fine-Tuning Strategies for Automatic MOS Prediction
in Text-to-Speech for Low-Resource Languages [1.1852406625172218]
我々は、オープンアクセスデータセットBVCCとSOMOSを用いて、wav2vec 2.0に基づくMOS予測モデルを訓練する。
低リソース言語(LRL)ウェスト・フリジアンのニューラルネットワークを用いたテストでは、SOMOSを微調整する前にBVCCで事前トレーニングを行うことで、微調整とゼロショット予測の両方に最適な精度が得られた。
論文 参考訳(メタデータ) (2023-05-30T20:19:56Z) - Improving Self-Supervised Learning-based MOS Prediction Networks [0.0]
本研究は,従来の自己教師型学習ベースMOS予測モデルに対して,データ,トレーニング,後訓練による具体的な改善を導入する。
We used a wav2vec 2.0 model pre-trained on LibriSpeech, extended with LSTM and non-linear dense layer。
この手法は,第1のVoice MOSチャレンジの共有合成音声データセットを用いて評価する。
論文 参考訳(メタデータ) (2022-04-23T09:19:16Z) - DDOS: A MOS Prediction Framework utilizing Domain Adaptive Pre-training
and Distribution of Opinion Scores [64.37977826069105]
MOS(Mean opinion score)は、音声合成システムにおいて典型的な主観評価尺度である。
本稿では,新しいMOS予測モデルであるDDOSを提案する。
DDOSは、ドメイン適応事前学習を利用して、合成音声の自己教師付き学習モデルをさらに訓練する。
論文 参考訳(メタデータ) (2022-04-07T05:04:10Z) - SOMOS: The Samsung Open MOS Dataset for the Evaluation of Neural
Text-to-Speech Synthesis [50.236929707024245]
SOMOSデータセットは、単にニューラルテキスト音声(TTS)サンプルからなる最初の大規模平均世論スコア(MOS)データセットである。
パブリックドメイン音声データセットであるLJ音声の合成発話20Kから成っている。
論文 参考訳(メタデータ) (2022-04-06T18:45:20Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Learning to Maximize Speech Quality Directly Using MOS Prediction for
Neural Text-to-Speech [15.796199345773873]
本稿では,知覚的損失の監視の下でTSモデルを訓練することにより,音声品質を向上させる新しい手法を提案する。
まず、平均世論スコア(MOS)予測モデルを事前訓練し、次に合成音声のMOSを最大化するためにTSモデルを訓練する。
提案手法は,TSモデルアーキテクチャや音声品質劣化の原因に関わらず,独立して適用することができる。
論文 参考訳(メタデータ) (2020-11-02T18:13:48Z) - Neural MOS Prediction for Synthesized Speech Using Multi-Task Learning
With Spoofing Detection and Spoofing Type Classification [16.43844160498413]
MOS予測モデルの性能向上のためのマルチタスク学習(MTL)手法を提案する。
Voice Conversion Challenge 2018を使った実験では、2つの補助タスクを備えたMTLの提案がMOS予測を改善することが示されている。
論文 参考訳(メタデータ) (2020-07-16T11:38:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。