論文の概要: Resource-Efficient Fine-Tuning Strategies for Automatic MOS Prediction
in Text-to-Speech for Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2305.19396v1
- Date: Tue, 30 May 2023 20:19:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 19:37:53.999935
- Title: Resource-Efficient Fine-Tuning Strategies for Automatic MOS Prediction
in Text-to-Speech for Low-Resource Languages
- Title(参考訳): 低リソース言語におけるテキスト音声の自動MOS予測のための資源効率の良い微調整手法
- Authors: Phat Do, Matt Coler, Jelske Dijkstra, Esther Klabbers
- Abstract要約: 我々は、オープンアクセスデータセットBVCCとSOMOSを用いて、wav2vec 2.0に基づくMOS予測モデルを訓練する。
低リソース言語(LRL)ウェスト・フリジアンのニューラルネットワークを用いたテストでは、SOMOSを微調整する前にBVCCで事前トレーニングを行うことで、微調整とゼロショット予測の両方に最適な精度が得られた。
- 参考スコア(独自算出の注目度): 1.1852406625172218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We train a MOS prediction model based on wav2vec 2.0 using the open-access
data sets BVCC and SOMOS. Our test with neural TTS data in the low-resource
language (LRL) West Frisian shows that pre-training on BVCC before fine-tuning
on SOMOS leads to the best accuracy for both fine-tuned and zero-shot
prediction. Further fine-tuning experiments show that using more than 30
percent of the total data does not lead to significant improvements. In
addition, fine-tuning with data from a single listener shows promising
system-level accuracy, supporting the viability of one-participant pilot tests.
These findings can all assist the resource-conscious development of TTS for
LRLs by progressing towards better zero-shot MOS prediction and informing the
design of listening tests, especially in early-stage evaluation.
- Abstract(参考訳): 我々は、オープンアクセスデータセットBVCCとSOMOSを用いて、wav2vec 2.0に基づくMOS予測モデルを訓練する。
低リソース言語(LRL)ウェスト・フリジアンのニューラルネットワークを用いたテストでは、SOMOSを微調整する前にBVCCで事前トレーニングを行うことで、微調整とゼロショット予測の両方に最適な精度が得られた。
さらなる微調整実験では、データ全体の30%以上を使用すると大きな改善は起こらないことが示されている。
さらに、単一リスナからのデータによる微調整は、有望なシステムレベルの精度を示し、一方の参加者によるパイロットテストの有効性をサポートする。
これらの知見は、特に早期評価において、より良いゼロショットMOS予測に向けて前進し、聴取テストの設計を伝えることにより、LRLのためのTSの資源意識開発を支援することができる。
関連論文リスト
- Uncertainty as a Predictor: Leveraging Self-Supervised Learning for
Zero-Shot MOS Prediction [40.51248841706311]
本稿では,低リソース環境における高効率な音質予測のギャップについて論じる。
我々は、wav2vecのような事前訓練された自己教師型学習モデルから得られた不確実性はVoiceMOSスコアと相関することを示した。
論文 参考訳(メタデータ) (2023-12-25T05:35:28Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Investigating Content-Aware Neural Text-To-Speech MOS Prediction Using
Prosodic and Linguistic Features [54.48824266041105]
MOS予測ニューラルモデルに基づく自動合成音声評価の最先端手法について検討した。
MOS予測システムに付加的な入力として韻律的特徴と言語的特徴を含めることを提案する。
すべてのMOS予測システムは、クラウドソースされた自然性MOS評価を備えた、TSSのみのニューラルネットワークであるSOMOSでトレーニングされている。
論文 参考訳(メタデータ) (2022-11-01T09:18:50Z) - Improving Self-Supervised Learning-based MOS Prediction Networks [0.0]
本研究は,従来の自己教師型学習ベースMOS予測モデルに対して,データ,トレーニング,後訓練による具体的な改善を導入する。
We used a wav2vec 2.0 model pre-trained on LibriSpeech, extended with LSTM and non-linear dense layer。
この手法は,第1のVoice MOSチャレンジの共有合成音声データセットを用いて評価する。
論文 参考訳(メタデータ) (2022-04-23T09:19:16Z) - SOMOS: The Samsung Open MOS Dataset for the Evaluation of Neural
Text-to-Speech Synthesis [50.236929707024245]
SOMOSデータセットは、単にニューラルテキスト音声(TTS)サンプルからなる最初の大規模平均世論スコア(MOS)データセットである。
パブリックドメイン音声データセットであるLJ音声の合成発話20Kから成っている。
論文 参考訳(メタデータ) (2022-04-06T18:45:20Z) - Improving Neural Machine Translation by Denoising Training [95.96569884410137]
本稿では,ニューラルネットワーク翻訳のためのトレーニングDoTの簡易かつ効果的な事前学習戦略を提案する。
モデルパラメータを、初期段階のソースおよびターゲットサイドのDenoisingタスクで更新し、正常にモデルをチューニングします。
実験によると、DoTは12のバイリンガルと16の多言語方向にわたるニューラルマシン翻訳性能を一貫して改善している。
論文 参考訳(メタデータ) (2022-01-19T00:11:38Z) - Improving Neural Machine Translation by Bidirectional Training [85.64797317290349]
我々は、ニューラルネットワーク翻訳のためのシンプルで効果的な事前学習戦略である双方向トレーニング(BiT)を提案する。
具体的には、初期モデルのパラメータを双方向に更新し、正常にモデルを調整する。
実験の結果,BiTは8つの言語対上の15の翻訳タスクに対して,SOTAニューラルマシン翻訳性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2021-09-16T07:58:33Z) - Learning to Maximize Speech Quality Directly Using MOS Prediction for
Neural Text-to-Speech [15.796199345773873]
本稿では,知覚的損失の監視の下でTSモデルを訓練することにより,音声品質を向上させる新しい手法を提案する。
まず、平均世論スコア(MOS)予測モデルを事前訓練し、次に合成音声のMOSを最大化するためにTSモデルを訓練する。
提案手法は,TSモデルアーキテクチャや音声品質劣化の原因に関わらず,独立して適用することができる。
論文 参考訳(メタデータ) (2020-11-02T18:13:48Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。