論文の概要: MOSPC: MOS Prediction Based on Pairwise Comparison
- arxiv url: http://arxiv.org/abs/2306.10493v1
- Date: Sun, 18 Jun 2023 07:38:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 20:24:07.239535
- Title: MOSPC: MOS Prediction Based on Pairwise Comparison
- Title(参考訳): MOSPC: ペアワイズ比較に基づくMOS予測
- Authors: Kexin Wang, Yunlong Zhao, Qianqian Dong, Tom Ko, Mingxuan Wang
- Abstract要約: MOS(Mean opinion score)は、合成音声の品質を評価する主観的尺度である。
ペア比較(MOSPC)に基づくMOS予測のための一般的なフレームワークを提案する。
筆者らのフレームワークは,各きめ細かなセグメントのランキング精度において,強いベースラインを超えている。
- 参考スコア(独自算出の注目度): 32.55704173124071
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a subjective metric to evaluate the quality of synthesized speech, Mean
opinion score~(MOS) usually requires multiple annotators to score the same
speech. Such an annotation approach requires a lot of manpower and is also
time-consuming. MOS prediction model for automatic evaluation can significantly
reduce labor cost. In previous works, it is difficult to accurately rank the
quality of speech when the MOS scores are close. However, in practical
applications, it is more important to correctly rank the quality of synthesis
systems or sentences than simply predicting MOS scores. Meanwhile, as each
annotator scores multiple audios during annotation, the score is probably a
relative value based on the first or the first few speech scores given by the
annotator. Motivated by the above two points, we propose a general framework
for MOS prediction based on pair comparison (MOSPC), and we utilize C-Mixup
algorithm to enhance the generalization performance of MOSPC. The experiments
on BVCC and VCC2018 show that our framework outperforms the baselines on most
of the correlation coefficient metrics, especially on the metric KTAU related
to quality ranking. And our framework also surpasses the strong baseline in
ranking accuracy on each fine-grained segment. These results indicate that our
framework contributes to improving the ranking accuracy of speech quality.
- Abstract(参考訳): 合成音声の品質を評価する主観的指標として、平均評価スコア~(mos)は、通常、複数の注釈者が同じ音声を得点する必要がある。
このようなアノテーションアプローチには多くのマンパワーが必要で、時間もかかります。
自動評価のためのMOS予測モデルは、労働コストを大幅に削減することができる。
先行研究では,mosスコアが近い場合,音声品質を正確にランク付けすることは困難である。
しかし, 実用的応用においては, 単にmosスコアを予測するよりも, 合成システムや文の品質を正しくランク付けすることが重要である。
一方、アノテーション中に各アノテータが複数のオーディオをスコアする際、アノテータが付与する第1または第1の音声スコアに基づいてスコアが相対値となる。
以上の2点により,ペア比較(MOSPC)に基づくMOS予測のための一般的なフレームワークを提案し,C-Mixupアルゴリズムを用いてMOSPCの一般化性能を向上させる。
BVCCとVCC2018の実験は、我々のフレームワークが相関係数の指標のほとんど、特に品質ランキングに関するKTAUの基準よりも優れていることを示している。
また,このフレームワークは,各細粒度セグメントのランキング精度も高いベースラインを超えている。
これらの結果から,音声品質のランク付け精度の向上に寄与することが示唆された。
関連論文リスト
- CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - Uncertainty as a Predictor: Leveraging Self-Supervised Learning for
Zero-Shot MOS Prediction [40.51248841706311]
本稿では,低リソース環境における高効率な音質予測のギャップについて論じる。
我々は、wav2vecのような事前訓練された自己教師型学習モデルから得られた不確実性はVoiceMOSスコアと相関することを示した。
論文 参考訳(メタデータ) (2023-12-25T05:35:28Z) - Learning with Noisy Low-Cost MOS for Image Quality Assessment via
Dual-Bias Calibration [20.671990508960906]
個々のアノテータの主観的バイアスを考慮すると、労働基準平均アノテータスコア(LA-MOS)は、通常、画像ごとに複数のアノテータから多数のアノテータのアノテータのアノテータのアノテータのアノテータスコアを収集する必要がある。
本稿では,低コストのMOSから頑健なIQAモデルを学習することを目的としている。
我々の知る限りでは、これはノイズの多い低コストラベルからの堅牢なIQAモデル学習の最初の調査である。
論文 参考訳(メタデータ) (2023-11-27T14:11:54Z) - Speech MOS multi-task learning and rater bias correction [10.123346550775471]
平均意見スコア(MOS)は、音声品質の知覚的評価のために標準化され、聞き手に音声サンプルの品質を評価させる。
本稿では,視覚的MOS推定モデルの性能向上のために,学習中にラベルやデータを追加するマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-04T20:06:27Z) - Alibaba-Translate China's Submission for WMT 2022 Quality Estimation
Shared Task [80.22825549235556]
我々は、UniTEという品質評価共有タスクにおいて、文レベルのMQMベンチマークを提出する。
具体的には、トレーニング中に3種類の入力形式と事前学習された言語モデルを組み合わせたUniTEのフレームワークを用いる。
その結果,我々のモデルは多言語・英語・ロシア語設定では第1位,英語・ドイツ語・中国語設定では第2位に達した。
論文 参考訳(メタデータ) (2022-10-18T08:55:27Z) - Comparison of Speech Representations for the MOS Prediction System [1.2949520455740093]
我々は,過去のBlizzardとVoice Conversion Challengesから収集した大規模聴取テストコーパスの実験を行った。
wav2vec の特徴集合は, 与えられた接地構造が常に信頼できるとは限らないにもかかわらず, 最高の一般化を示した。
論文 参考訳(メタデータ) (2022-06-28T08:18:18Z) - DDOS: A MOS Prediction Framework utilizing Domain Adaptive Pre-training
and Distribution of Opinion Scores [64.37977826069105]
MOS(Mean opinion score)は、音声合成システムにおいて典型的な主観評価尺度である。
本稿では,新しいMOS予測モデルであるDDOSを提案する。
DDOSは、ドメイン適応事前学習を利用して、合成音声の自己教師付き学習モデルをさらに訓練する。
論文 参考訳(メタデータ) (2022-04-07T05:04:10Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Utilizing Self-supervised Representations for MOS Prediction [51.09985767946843]
既存の評価は通常、クリーンな参照または平行な地上真実データを必要とする。
一方、主観的テストは、追加のクリーンデータや並列データを必要としず、人間の知覚とよりよく相関する。
基礎的真理データを必要とせず,人間の知覚とよく相関する自動評価手法を開発した。
論文 参考訳(メタデータ) (2021-04-07T09:44:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。