論文の概要: Speech MOS multi-task learning and rater bias correction
- arxiv url: http://arxiv.org/abs/2212.01911v1
- Date: Sun, 4 Dec 2022 20:06:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 18:45:39.117852
- Title: Speech MOS multi-task learning and rater bias correction
- Title(参考訳): 音声MOSマルチタスク学習とレーダバイアス補正
- Authors: Haleh Akrami, Hannes Gamper
- Abstract要約: 平均意見スコア(MOS)は、音声品質の知覚的評価のために標準化され、聞き手に音声サンプルの品質を評価させる。
本稿では,視覚的MOS推定モデルの性能向上のために,学習中にラベルやデータを追加するマルチタスクフレームワークを提案する。
- 参考スコア(独自算出の注目度): 10.123346550775471
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Perceptual speech quality is an important performance metric for
teleconferencing applications. The mean opinion score (MOS) is standardized for
the perceptual evaluation of speech quality and is obtained by asking listeners
to rate the quality of a speech sample. Recently, there has been increasing
research interest in developing models for estimating MOS blindly. Here we
propose a multi-task framework to include additional labels and data in
training to improve the performance of a blind MOS estimation model.
Experimental results indicate that the proposed model can be trained to jointly
estimate MOS, reverberation time (T60), and clarity (C50) by combining two
disjoint data sets in training, one containing only MOS labels and the other
containing only T60 and C50 labels. Furthermore, we use a semi-supervised
framework to combine two MOS data sets in training, one containing only MOS
labels (per ITU-T Recommendation P.808), and the other containing separate
scores for speech signal, background noise, and overall quality (per ITU-T
Recommendation P.835). Finally, we present preliminary results for addressing
individual rater bias in the MOS labels.
- Abstract(参考訳): 音声品質は遠隔会議アプリケーションにとって重要なパフォーマンス指標である。
平均意見スコア(mos)は、音声品質の知覚評価のために標準化され、聴取者に音声サンプルの品質を評価するように依頼することで得られる。
近年,mosを盲目的に推定するモデルの開発が研究されている。
本稿では,視覚的MOS推定モデルの性能向上のために,学習中にラベルやデータを追加するマルチタスクフレームワークを提案する。
実験結果から,MOSラベルのみを含む2つの解離データセットと,T60ラベルとC50ラベルのみを含む2つの解離データセットを組み合わせることで,MOS,残響時間(T60),明度(C50)を共同で推定できることがわかった。
さらに、トレーニング中の2つのMOSデータセット(ITU-TレコメンデーションP.808あたり)と、音声信号、バックグラウンドノイズ、全体的な品質(ITU-TレコメンデーションP.835あたり)の別々のスコアを含む半教師付きフレームワークを用いて、MOSラベルのみを含む。
最後に,mosラベルの個別利率バイアスに対処するための予備的な結果を示す。
関連論文リスト
- Audio Large Language Models Can Be Descriptive Speech Quality Evaluators [46.765203628127345]
本稿では,人間格付けから生成した最初の自然言語に基づく音声評価コーパスについて紹介する。
このコーパスは、複数の次元にわたる詳細な分析を提供し、品質劣化の原因を特定する。
生音声から関連情報を抽出するために,LLM蒸留(ALLD)を用いたアライメント手法を提案する。
論文 参考訳(メタデータ) (2025-01-27T22:47:51Z) - Uncertainty as a Predictor: Leveraging Self-Supervised Learning for
Zero-Shot MOS Prediction [40.51248841706311]
本稿では,低リソース環境における高効率な音質予測のギャップについて論じる。
我々は、wav2vecのような事前訓練された自己教師型学習モデルから得られた不確実性はVoiceMOSスコアと相関することを示した。
論文 参考訳(メタデータ) (2023-12-25T05:35:28Z) - Multi-Task Pseudo-Label Learning for Non-Intrusive Speech Quality
Assessment Model [28.32514067707762]
本研究ではMTQ-Netと呼ばれるマルチタスク擬似ラベル学習(MPL)に基づく非侵入的音声品質評価モデルを提案する。
MPLは、事前訓練されたモデルから擬似ラベルスコアを取得し、マルチタスク学習を行う2つの段階から構成される。
MPLアプローチによるMTQ-Netは、他のSSLベースの音声アセスメントモデルと比較して、全体的な予測能力が高い。
論文 参考訳(メタデータ) (2023-08-18T02:36:21Z) - MOSPC: MOS Prediction Based on Pairwise Comparison [32.55704173124071]
MOS(Mean opinion score)は、合成音声の品質を評価する主観的尺度である。
ペア比較(MOSPC)に基づくMOS予測のための一般的なフレームワークを提案する。
筆者らのフレームワークは,各きめ細かなセグメントのランキング精度において,強いベースラインを超えている。
論文 参考訳(メタデータ) (2023-06-18T07:38:17Z) - Investigating Content-Aware Neural Text-To-Speech MOS Prediction Using
Prosodic and Linguistic Features [54.48824266041105]
MOS予測ニューラルモデルに基づく自動合成音声評価の最先端手法について検討した。
MOS予測システムに付加的な入力として韻律的特徴と言語的特徴を含めることを提案する。
すべてのMOS予測システムは、クラウドソースされた自然性MOS評価を備えた、TSSのみのニューラルネットワークであるSOMOSでトレーニングされている。
論文 参考訳(メタデータ) (2022-11-01T09:18:50Z) - Improving Self-Supervised Learning-based MOS Prediction Networks [0.0]
本研究は,従来の自己教師型学習ベースMOS予測モデルに対して,データ,トレーニング,後訓練による具体的な改善を導入する。
We used a wav2vec 2.0 model pre-trained on LibriSpeech, extended with LSTM and non-linear dense layer。
この手法は,第1のVoice MOSチャレンジの共有合成音声データセットを用いて評価する。
論文 参考訳(メタデータ) (2022-04-23T09:19:16Z) - SOMOS: The Samsung Open MOS Dataset for the Evaluation of Neural
Text-to-Speech Synthesis [50.236929707024245]
SOMOSデータセットは、単にニューラルテキスト音声(TTS)サンプルからなる最初の大規模平均世論スコア(MOS)データセットである。
パブリックドメイン音声データセットであるLJ音声の合成発話20Kから成っている。
論文 参考訳(メタデータ) (2022-04-06T18:45:20Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Utilizing Self-supervised Representations for MOS Prediction [51.09985767946843]
既存の評価は通常、クリーンな参照または平行な地上真実データを必要とする。
一方、主観的テストは、追加のクリーンデータや並列データを必要としず、人間の知覚とよりよく相関する。
基礎的真理データを必要とせず,人間の知覚とよく相関する自動評価手法を開発した。
論文 参考訳(メタデータ) (2021-04-07T09:44:36Z) - Neural MOS Prediction for Synthesized Speech Using Multi-Task Learning
With Spoofing Detection and Spoofing Type Classification [16.43844160498413]
MOS予測モデルの性能向上のためのマルチタスク学習(MTL)手法を提案する。
Voice Conversion Challenge 2018を使った実験では、2つの補助タスクを備えたMTLの提案がMOS予測を改善することが示されている。
論文 参考訳(メタデータ) (2020-07-16T11:38:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。