論文の概要: Improving Self-Supervised Learning-based MOS Prediction Networks
- arxiv url: http://arxiv.org/abs/2204.11030v1
- Date: Sat, 23 Apr 2022 09:19:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-26 13:49:59.301853
- Title: Improving Self-Supervised Learning-based MOS Prediction Networks
- Title(参考訳): 自己教師付き学習ベースのMOS予測ネットワークの改善
- Authors: B\'alint Gyires-T\'oth, Csaba Zaink\'o
- Abstract要約: 本研究は,従来の自己教師型学習ベースMOS予測モデルに対して,データ,トレーニング,後訓練による具体的な改善を導入する。
We used a wav2vec 2.0 model pre-trained on LibriSpeech, extended with LSTM and non-linear dense layer。
この手法は,第1のVoice MOSチャレンジの共有合成音声データセットを用いて評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: MOS (Mean Opinion Score) is a subjective method used for the evaluation of a
system's quality. Telecommunications (for voice and video), and speech
synthesis systems (for generated speech) are a few of the many applications of
the method. While MOS tests are widely accepted, they are time-consuming and
costly since human input is required. In addition, since the systems and
subjects of the tests differ, the results are not really comparable. On the
other hand, a large number of previous tests allow us to train machine learning
models that are capable of predicting MOS value. By automatically predicting
MOS values, both the aforementioned issues can be resolved.
The present work introduces data-, training- and post-training specific
improvements to a previous self-supervised learning-based MOS prediction model.
We used a wav2vec 2.0 model pre-trained on LibriSpeech, extended with LSTM and
non-linear dense layers. We introduced transfer learning, target data
preprocessing a two- and three-phase training method with different batch
formulations, dropout accumulation (for larger batch sizes) and quantization of
the predictions.
The methods are evaluated using the shared synthetic speech dataset of the
first Voice MOS challenge.
- Abstract(参考訳): MOS(Mean Opinion Score)は、システムの品質評価に使用される主観的手法である。
電気通信(音声とビデオ)と音声合成システム(音声生成)は、この手法の多くの応用の1つである。
MOSテストは広く受け入れられているが、人間の入力が必要なため、時間とコストがかかる。
さらに、システムとテスト対象が異なるため、結果は実際には同等ではない。
一方で、以前のテストの多くでは、mos値の予測が可能なマシンラーニングモデルをトレーニングすることが可能でした。
MOS値を自動予測することで、上記の2つの問題を解決することができる。
本研究は,従来の自己教師型学習ベースMOS予測モデルに対して,データ,トレーニング,後訓練による具体的な改善を導入する。
我々はlibrispeechで事前学習したwav2vec 2.0モデルをlstmおよび非線形高密度層で拡張した。
我々は,転送学習,2段階および3段階の学習手法の事前処理,バッチの定式化,ドロップアウト蓄積(より大きなバッチサイズのために),予測の定量化を導入している。
この手法は,第1のVoice MOSチャレンジの共有合成音声データセットを用いて評価する。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Uncertainty as a Predictor: Leveraging Self-Supervised Learning for
Zero-Shot MOS Prediction [40.51248841706311]
本稿では,低リソース環境における高効率な音質予測のギャップについて論じる。
我々は、wav2vecのような事前訓練された自己教師型学習モデルから得られた不確実性はVoiceMOSスコアと相関することを示した。
論文 参考訳(メタデータ) (2023-12-25T05:35:28Z) - Multi-Task Pseudo-Label Learning for Non-Intrusive Speech Quality
Assessment Model [28.32514067707762]
本研究ではMTQ-Netと呼ばれるマルチタスク擬似ラベル学習(MPL)に基づく非侵入的音声品質評価モデルを提案する。
MPLは、事前訓練されたモデルから擬似ラベルスコアを取得し、マルチタスク学習を行う2つの段階から構成される。
MPLアプローチによるMTQ-Netは、他のSSLベースの音声アセスメントモデルと比較して、全体的な予測能力が高い。
論文 参考訳(メタデータ) (2023-08-18T02:36:21Z) - Investigating Content-Aware Neural Text-To-Speech MOS Prediction Using
Prosodic and Linguistic Features [54.48824266041105]
MOS予測ニューラルモデルに基づく自動合成音声評価の最先端手法について検討した。
MOS予測システムに付加的な入力として韻律的特徴と言語的特徴を含めることを提案する。
すべてのMOS予測システムは、クラウドソースされた自然性MOS評価を備えた、TSSのみのニューラルネットワークであるSOMOSでトレーニングされている。
論文 参考訳(メタデータ) (2022-11-01T09:18:50Z) - DDOS: A MOS Prediction Framework utilizing Domain Adaptive Pre-training
and Distribution of Opinion Scores [64.37977826069105]
MOS(Mean opinion score)は、音声合成システムにおいて典型的な主観評価尺度である。
本稿では,新しいMOS予測モデルであるDDOSを提案する。
DDOSは、ドメイン適応事前学習を利用して、合成音声の自己教師付き学習モデルをさらに訓練する。
論文 参考訳(メタデータ) (2022-04-07T05:04:10Z) - SOMOS: The Samsung Open MOS Dataset for the Evaluation of Neural
Text-to-Speech Synthesis [50.236929707024245]
SOMOSデータセットは、単にニューラルテキスト音声(TTS)サンプルからなる最初の大規模平均世論スコア(MOS)データセットである。
パブリックドメイン音声データセットであるLJ音声の合成発話20Kから成っている。
論文 参考訳(メタデータ) (2022-04-06T18:45:20Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Utilizing Self-supervised Representations for MOS Prediction [51.09985767946843]
既存の評価は通常、クリーンな参照または平行な地上真実データを必要とする。
一方、主観的テストは、追加のクリーンデータや並列データを必要としず、人間の知覚とよりよく相関する。
基礎的真理データを必要とせず,人間の知覚とよく相関する自動評価手法を開発した。
論文 参考訳(メタデータ) (2021-04-07T09:44:36Z) - Neural MOS Prediction for Synthesized Speech Using Multi-Task Learning
With Spoofing Detection and Spoofing Type Classification [16.43844160498413]
MOS予測モデルの性能向上のためのマルチタスク学習(MTL)手法を提案する。
Voice Conversion Challenge 2018を使った実験では、2つの補助タスクを備えたMTLの提案がMOS予測を改善することが示されている。
論文 参考訳(メタデータ) (2020-07-16T11:38:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。