論文の概要: SOMOS: The Samsung Open MOS Dataset for the Evaluation of Neural
Text-to-Speech Synthesis
- arxiv url: http://arxiv.org/abs/2204.03040v1
- Date: Wed, 6 Apr 2022 18:45:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 14:08:48.957530
- Title: SOMOS: The Samsung Open MOS Dataset for the Evaluation of Neural
Text-to-Speech Synthesis
- Title(参考訳): SOMOS: ニューラルテキスト音声合成評価のためのSamsung Open MOSデータセット
- Authors: Georgia Maniati, Alexandra Vioni, Nikolaos Ellinas, Karolos Nikitaras,
Konstantinos Klapsas, June Sig Sung, Gunu Jho, Aimilios Chalamandaris and
Pirros Tsiakoulis
- Abstract要約: SOMOSデータセットは、単にニューラルテキスト音声(TTS)サンプルからなる最初の大規模平均世論スコア(MOS)データセットである。
パブリックドメイン音声データセットであるLJ音声の合成発話20Kから成っている。
- 参考スコア(独自算出の注目度): 50.236929707024245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present the SOMOS dataset, the first large-scale mean
opinion scores (MOS) dataset consisting of solely neural text-to-speech (TTS)
samples. It can be employed to train automatic MOS prediction systems focused
on the assessment of modern synthesizers, and can stimulate advancements in
acoustic model evaluation. It consists of 20K synthetic utterances of the LJ
Speech voice, a public domain speech dataset which is a common benchmark for
building neural acoustic models and vocoders. Utterances are generated from 200
TTS systems including vanilla neural acoustic models as well as models which
allow prosodic variations. An LPCNet vocoder is used for all systems, so that
the samples' variation depends only on the acoustic models. The synthesized
utterances provide balanced and adequate domain and length coverage. We collect
MOS naturalness evaluations on 3 English Amazon Mechanical Turk locales and
share practices leading to reliable crowdsourced annotations for this task.
Baseline results of state-of-the-art MOS prediction models on the SOMOS dataset
are presented, while we show the challenges that such models face when assigned
to evaluate synthetic utterances.
- Abstract(参考訳): 本研究は,音声音声合成(TTS)のみからなる,最初の大規模平均世論スコア(MOS)データセットであるSOMOSデータセットを提案する。
現代の合成器の評価に焦点を当てた自動MOS予測システムの訓練に使用することができ、音響モデル評価の進歩を促進できる。
これは、ニューラルネットワークの音響モデルとボコーダを構築する一般的なベンチマークである、パブリックドメインの音声データセットであるlj speech voiceの20kの合成発話で構成されている。
発話は、バニラ神経音響モデルを含む200のTSSシステムと、韻律的変動を可能にするモデルから生成される。
lpcnetボコーダは全てのシステムで使用されており、サンプルの変動は音響モデルのみに依存する。
合成された発話は、バランスよく適切なドメインと長さのカバレッジを提供する。
本研究は,アマゾン・メカニカル・トルコの3地域を対象に,MOSの自然度評価を収集し,この課題に対するクラウドソースアノテーションの信頼性につながるプラクティスを共有する。
SOMOSデータセット上での最先端MOS予測モデルのベースライン結果を示すとともに、合成発話の評価に割り当てられた場合の課題を示す。
関連論文リスト
- SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - On the Effect of Purely Synthetic Training Data for Different Automatic Speech Recognition Architectures [19.823015917720284]
音声認識学習における合成データの有用性について検討する。
我々は、元のトレーニングデータを再生し、合成データのみに基づいてASRシステムを訓練する。
トレーニングスコアが過度な適合を示す場合であっても,TTSモデルの一般化は良好であることを示す。
論文 参考訳(メタデータ) (2024-07-25T12:44:45Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - Uncertainty as a Predictor: Leveraging Self-Supervised Learning for
Zero-Shot MOS Prediction [40.51248841706311]
本稿では,低リソース環境における高効率な音質予測のギャップについて論じる。
我々は、wav2vecのような事前訓練された自己教師型学習モデルから得られた不確実性はVoiceMOSスコアと相関することを示した。
論文 参考訳(メタデータ) (2023-12-25T05:35:28Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - Investigating Content-Aware Neural Text-To-Speech MOS Prediction Using
Prosodic and Linguistic Features [54.48824266041105]
MOS予測ニューラルモデルに基づく自動合成音声評価の最先端手法について検討した。
MOS予測システムに付加的な入力として韻律的特徴と言語的特徴を含めることを提案する。
すべてのMOS予測システムは、クラウドソースされた自然性MOS評価を備えた、TSSのみのニューラルネットワークであるSOMOSでトレーニングされている。
論文 参考訳(メタデータ) (2022-11-01T09:18:50Z) - Improving Self-Supervised Learning-based MOS Prediction Networks [0.0]
本研究は,従来の自己教師型学習ベースMOS予測モデルに対して,データ,トレーニング,後訓練による具体的な改善を導入する。
We used a wav2vec 2.0 model pre-trained on LibriSpeech, extended with LSTM and non-linear dense layer。
この手法は,第1のVoice MOSチャレンジの共有合成音声データセットを用いて評価する。
論文 参考訳(メタデータ) (2022-04-23T09:19:16Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Learning to Maximize Speech Quality Directly Using MOS Prediction for
Neural Text-to-Speech [15.796199345773873]
本稿では,知覚的損失の監視の下でTSモデルを訓練することにより,音声品質を向上させる新しい手法を提案する。
まず、平均世論スコア(MOS)予測モデルを事前訓練し、次に合成音声のMOSを最大化するためにTSモデルを訓練する。
提案手法は,TSモデルアーキテクチャや音声品質劣化の原因に関わらず,独立して適用することができる。
論文 参考訳(メタデータ) (2020-11-02T18:13:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。