論文の概要: The T05 System for The VoiceMOS Challenge 2024: Transfer Learning from Deep Image Classifier to Naturalness MOS Prediction of High-Quality Synthetic Speech
- arxiv url: http://arxiv.org/abs/2409.09305v1
- Date: Sat, 14 Sep 2024 05:03:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 21:29:12.216267
- Title: The T05 System for The VoiceMOS Challenge 2024: Transfer Learning from Deep Image Classifier to Naturalness MOS Prediction of High-Quality Synthetic Speech
- Title(参考訳): 2024年VoiceMOSチャレンジのためのT05システム:高音質合成音声の深部画像分類から自然度MOS予測への変換学習
- Authors: Kaito Baba, Wataru Nakata, Yuki Saito, Hiroshi Saruwatari,
- Abstract要約: 本稿では,VoiceMOS Challenge (VMC) 2024のためのシステム(T05)を提案する。
提案システムは,高品質な合成音声に対する自然度平均評価スコア(MOS)の正確な予測に焦点を当てたVMC 2024トラック1のために設計されている。
VMC 2024 Track 1では、私たちのT05システムは、評価指標16点中7点、残りの9点中2点を達成しました。
- 参考スコア(独自算出の注目度): 28.168242593106566
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present our system (denoted as T05) for the VoiceMOS Challenge (VMC) 2024. Our system was designed for the VMC 2024 Track 1, which focused on the accurate prediction of naturalness mean opinion score (MOS) for high-quality synthetic speech. In addition to a pretrained self-supervised learning (SSL)-based speech feature extractor, our system incorporates a pretrained image feature extractor to capture the difference of synthetic speech observed in speech spectrograms. We first separately train two MOS predictors that use either of an SSL-based or spectrogram-based feature. Then, we fine-tune the two predictors for better MOS prediction using the fusion of two extracted features. In the VMC 2024 Track 1, our T05 system achieved first place in 7 out of 16 evaluation metrics and second place in the remaining 9 metrics, with a significant difference compared to those ranked third and below. We also report the results of our ablation study to investigate essential factors of our system.
- Abstract(参考訳): 本稿では,VoiceMOS Challenge (VMC) 2024のためのシステム(T05)を提案する。
提案システムは,高品質な合成音声に対する自然度平均評価スコア(MOS)の正確な予測に焦点を当てたVMC 2024トラック1のために設計されている。
本システムでは,事前訓練された自己教師付き学習(SSL)に基づく音声特徴抽出器に加えて,事前訓練された画像特徴抽出器を組み込んで,音声スペクトログラムで観測される合成音声の差を捉えている。
まず、SSLベースまたはスペクトログラムベースの機能を使用する2つのMOS予測器を個別にトレーニングします。
次に,2つの特徴の融合によるMOS予測の精度向上のために,2つの予測器を微調整する。
VMC 2024 Track 1では、私たちのT05システムは、評価指標16点中7点、残りの9点中2点を達成しました。
また, アブレーション研究の結果を報告し, 本システムの本質的要因について検討した。
関連論文リスト
- MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Uncertainty as a Predictor: Leveraging Self-Supervised Learning for
Zero-Shot MOS Prediction [40.51248841706311]
本稿では,低リソース環境における高効率な音質予測のギャップについて論じる。
我々は、wav2vecのような事前訓練された自己教師型学習モデルから得られた不確実性はVoiceMOSスコアと相関することを示した。
論文 参考訳(メタデータ) (2023-12-25T05:35:28Z) - Investigating Content-Aware Neural Text-To-Speech MOS Prediction Using
Prosodic and Linguistic Features [54.48824266041105]
MOS予測ニューラルモデルに基づく自動合成音声評価の最先端手法について検討した。
MOS予測システムに付加的な入力として韻律的特徴と言語的特徴を含めることを提案する。
すべてのMOS予測システムは、クラウドソースされた自然性MOS評価を備えた、TSSのみのニューラルネットワークであるSOMOSでトレーニングされている。
論文 参考訳(メタデータ) (2022-11-01T09:18:50Z) - Deep Spectro-temporal Artifacts for Detecting Synthesized Speech [57.42110898920759]
本稿では,トラック1(低品質フェイク音声検出)とトラック2(部分フェイク音声検出)の総合評価を行う。
本稿では, 原時間信号, スペクトル特性, 深層埋没特性を用いて, 分光時相アーティファクトを検出した。
我々はそれぞれ1番線と2番線で4位と5位にランクインした。
論文 参考訳(メタデータ) (2022-10-11T08:31:30Z) - Comparison of Speech Representations for the MOS Prediction System [1.2949520455740093]
我々は,過去のBlizzardとVoice Conversion Challengesから収集した大規模聴取テストコーパスの実験を行った。
wav2vec の特徴集合は, 与えられた接地構造が常に信頼できるとは限らないにもかかわらず, 最高の一般化を示した。
論文 参考訳(メタデータ) (2022-06-28T08:18:18Z) - SOMOS: The Samsung Open MOS Dataset for the Evaluation of Neural
Text-to-Speech Synthesis [50.236929707024245]
SOMOSデータセットは、単にニューラルテキスト音声(TTS)サンプルからなる最初の大規模平均世論スコア(MOS)データセットである。
パブリックドメイン音声データセットであるLJ音声の合成発話20Kから成っている。
論文 参考訳(メタデータ) (2022-04-06T18:45:20Z) - The RoyalFlush System of Speech Recognition for M2MeT Challenge [5.863625637354342]
本稿では,M2MeTチャレンジにおけるマルチスピーカ自動音声認識(ASR)の追跡のためのRoyalFlushシステムについて述べる。
大規模シミュレーションデータを用いたシリアライズアウトプットトレーニング(SOT)に基づくマルチスピーカASRシステムを採用した。
我々のシステムでは、検証セットでは12.22%の絶対文字誤り率(CER)が、テストセットでは12.11%が削減された。
論文 参考訳(メタデータ) (2022-02-03T14:38:26Z) - STC speaker recognition systems for the NIST SRE 2021 [56.05258832139496]
本稿では,NIST 2021話者認識評価に提出されたSTCシステムについて述べる。
これらのシステムは、ディープニューラルネットワークを特徴抽出器として利用する様々なサブシステムで構成されている。
ビデオモダリティのために、大きな顔画像データセットに基づいて訓練されたRetinaFace顔検出器と深層ResNet顔埋め込み抽出器を用いた最良のソリューションを開発した。
論文 参考訳(メタデータ) (2021-11-03T15:31:01Z) - DelightfulTTS: The Microsoft Speech Synthesis System for Blizzard
Challenge 2021 [31.750875486806184]
本稿では、Microsoftのエンドツーエンドニューラルテキスト音声合成システム(TTS: DelightfulTTS for Blizzard Challenge 2021)について述べる。
この課題の目的は、テキストから自然かつ高品質な音声を合成することであり、我々はこの目標に2つの視点でアプローチする。
論文 参考訳(メタデータ) (2021-10-25T02:47:59Z) - Scenario Aware Speech Recognition: Advancements for Apollo Fearless
Steps & CHiME-4 Corpora [70.46867541361982]
本稿では、TRILLと呼ばれる三重項損失に基づく自己監督基準で訓練された一般的な非意味的音声表現について考察する。
我々は、Fearless Stepsの開発と評価のために、+5.42%と+3.18%の相対的なWER改善を観察した。
論文 参考訳(メタデータ) (2021-09-23T00:43:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。