論文の概要: Using Rater and System Metadata to Explain Variance in the VoiceMOS
Challenge 2022 Dataset
- arxiv url: http://arxiv.org/abs/2209.06358v1
- Date: Wed, 14 Sep 2022 00:45:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-15 14:00:39.778763
- Title: Using Rater and System Metadata to Explain Variance in the VoiceMOS
Challenge 2022 Dataset
- Title(参考訳): raterとシステムメタデータを用いたvoicemos challenge 2022データセットのばらつき説明
- Authors: Michael Chinen, Jan Skoglund, Chandan K A Reddy, Alessandro Ragano,
Andrew Hines
- Abstract要約: VoiceMOS 2022チャレンジでは、合成音声変換と主観的なラベル付き音声音声合成サンプルのデータセットが提供された。
本研究では,メタデータからの音声品質の主観評価とデータセットの分布不均衡から説明できる分散量について検討する。
- 参考スコア(独自算出の注目度): 71.93633698146002
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Non-reference speech quality models are important for a growing number of
applications. The VoiceMOS 2022 challenge provided a dataset of synthetic voice
conversion and text-to-speech samples with subjective labels. This study looks
at the amount of variance that can be explained in subjective ratings of speech
quality from metadata and the distribution imbalances of the dataset. Speech
quality models were constructed using wav2vec 2.0 with additional metadata
features that included rater groups and system identifiers and obtained
competitive metrics including a Spearman rank correlation coefficient (SRCC) of
0.934 and MSE of 0.088 at the system-level, and 0.877 and 0.198 at the
utterance-level. Using data and metadata that the test restricted or blinded
further improved the metrics. A metadata analysis showed that the system-level
metrics do not represent the model's system-level prediction as a result of the
wide variation in the number of utterances used for each system on the
validation and test datasets. We conclude that, in general, conditions should
have enough utterances in the test set to bound the sample mean error, and be
relatively balanced in utterance count between systems, otherwise the
utterance-level metrics may be more reliable and interpretable.
- Abstract(参考訳): 非参照音声品質モデルは、多くのアプリケーションにとって重要である。
VoiceMOS 2022チャレンジでは、合成音声変換と主観的なラベル付き音声音声合成サンプルのデータセットが提供された。
本研究では,メタデータからの音声品質の主観的評価とデータセットの分布不均衡から説明できる分散量について検討する。
音声品質モデルはwav2vec 2.0を用いて,レーダ群とシステム識別子を含むメタデータを付加し,システムレベルでは0.934,MSEが0.088,発話レベルでは0.877,0.198といった競合指標を得た。
テストが制限あるいは無視したデータとメタデータを使用することで、メトリクスはさらに改善された。
メタデータ分析により、検証およびテストデータセット上で各システムで使用される発話数の変化が広範に変化した結果、システムレベルのメトリクスはモデルのシステムレベルの予測を表現していないことが示された。
一般に、条件はサンプル平均誤差を束縛するのに十分な発話しか持たず、システム間での発話数で相対的にバランスが取れ、そうでなければ、発話レベルのメトリクスはより信頼性が高く解釈可能である。
関連論文リスト
- Scaling Parameter-Constrained Language Models with Quality Data [32.35610029333478]
言語モデリングにおける法則のスケーリングは、伝統的にデータセットのサイズとモデルパラメータの関数としてトレーニング損失を定量化する。
我々は,従来のスケーリング法則の理解を,元の定式化におけるデータ品質の微視的なビューを提供することによって拡張する。
論文 参考訳(メタデータ) (2024-10-04T02:07:17Z) - Semi-Supervised Cognitive State Classification from Speech with Multi-View Pseudo-Labeling [21.82879779173242]
ラベル付きデータの欠如は、音声分類タスクにおいて共通の課題である。
そこで我々は,新しい多視点擬似ラベル手法を導入したセミスーパーバイザードラーニング(SSL)フレームワークを提案する。
感情認識と認知症検出タスクにおけるSSLフレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-09-25T13:51:19Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Influence Scores at Scale for Efficient Language Data Sampling [3.072340427031969]
影響スコア」は、データの重要なサブセットを特定するために使われる。
本稿では,言語分類タスクにおける影響スコアの適用性について検討する。
論文 参考訳(メタデータ) (2023-11-27T20:19:22Z) - Investigating model performance in language identification: beyond
simple error statistics [28.128924654154087]
言語開発の専門家は、流動的で会話的なスピーチから言語を自動的に識別するツールを必要としている。
本研究では,言語特性の異なる個々の録音や音声単位に対して,多くの言語識別システムがどの程度機能するかを検討する。
論文 参考訳(メタデータ) (2023-05-30T10:32:53Z) - CCATMos: Convolutional Context-aware Transformer Network for
Non-intrusive Speech Quality Assessment [12.497279501767606]
本研究では,人間の評価スコア(MOS)を予測するために,CCAT(Convolutional Context-Aware Transformer)ネットワークと呼ばれる新しいエンド・ツー・エンドのモデル構造を提案する。
我々は、複数の言語と歪みタイプにまたがる3つのMOSアノテーション付きデータセット上でモデルを評価し、その結果をConferenceSpeech 2022 Challengeに提出する。
論文 参考訳(メタデータ) (2022-11-04T16:46:11Z) - NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level
Quality [123.97136358092585]
我々は、ベンチマークデータセット上で人間レベルの品質を実現するNaturalSpeechと呼ばれるTSシステムを開発した。
具体的には、波形生成のための変分オートエンコーダ(VAE)を利用する。
LJSpeechデータセットを用いた実験により,提案したNaturalSpeechは文レベルでの人間の記録に対して-0.01CMOSを達成した。
論文 参考訳(メタデータ) (2022-05-09T16:57:35Z) - Re-Examining System-Level Correlations of Automatic Summarization
Evaluation Metrics [64.81682222169113]
システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。
システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
論文 参考訳(メタデータ) (2022-04-21T15:52:14Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。