論文の概要: Multi-Task Pseudo-Label Learning for Non-Intrusive Speech Quality
Assessment Model
- arxiv url: http://arxiv.org/abs/2308.09262v3
- Date: Wed, 13 Mar 2024 13:15:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 18:57:23.789454
- Title: Multi-Task Pseudo-Label Learning for Non-Intrusive Speech Quality
Assessment Model
- Title(参考訳): 非侵入的音声品質のためのマルチタスク擬似ラベル学習
評価モデル
- Authors: Ryandhimas E. Zezario, Bo-Ren Brian Bai, Chiou-Shann Fuh, Hsin-Min
Wang and Yu Tsao
- Abstract要約: 本研究ではMTQ-Netと呼ばれるマルチタスク擬似ラベル学習(MPL)に基づく非侵入的音声品質評価モデルを提案する。
MPLは、事前訓練されたモデルから擬似ラベルスコアを取得し、マルチタスク学習を行う2つの段階から構成される。
MPLアプローチによるMTQ-Netは、他のSSLベースの音声アセスメントモデルと比較して、全体的な予測能力が高い。
- 参考スコア(独自算出の注目度): 28.32514067707762
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study proposes a multi-task pseudo-label learning (MPL)-based
non-intrusive speech quality assessment model called MTQ-Net. MPL consists of
two stages: obtaining pseudo-label scores from a pretrained model and
performing multi-task learning. The 3QUEST metrics, namely Speech-MOS (S-MOS),
Noise-MOS (N-MOS), and General-MOS (G-MOS), are the assessment targets. The
pretrained MOSA-Net model is utilized to estimate three pseudo labels:
perceptual evaluation of speech quality (PESQ), short-time objective
intelligibility (STOI), and speech distortion index (SDI). Multi-task learning
is then employed to train MTQ-Net by combining a supervised loss (derived from
the difference between the estimated score and the ground-truth label) and a
semi-supervised loss (derived from the difference between the estimated score
and the pseudo label), where the Huber loss is employed as the loss function.
Experimental results first demonstrate the advantages of MPL compared to
training a model from scratch and using a direct knowledge transfer mechanism.
Second, the benefit of the Huber loss for improving the predictive ability of
MTQ-Net is verified. Finally, the MTQ-Net with the MPL approach exhibits higher
overall predictive power compared to other SSL-based speech assessment models.
- Abstract(参考訳): 本研究ではMTQ-Netと呼ばれるマルチタスク擬似ラベル学習(MPL)に基づく非侵入的音声品質評価モデルを提案する。
MPLは、事前訓練されたモデルから擬似ラベルスコアを取得し、マルチタスク学習を行う2つの段階から構成される。
3QUESTメトリクス、すなわち、Speech-MOS(S-MOS)、N-MOS(N-MOS)、General-MOS(G-MOS)が評価対象である。
事前学習したMOSA-Netモデルを用いて、音声品質の知覚評価(PESQ)、短時間客観的インテリジェンス(STOI)、音声歪み指数(SDI)の3つの擬似ラベルを推定する。
次に、MTQ-Netのトレーニングにマルチタスク学習を用い、教師付き損失(推定スコアとグランドトゥルースラベルとの差から)と半教師付き損失(推定スコアと擬似ラベルとの差から)を組み合わせて、ハマー損失を損失関数として利用する。
実験結果はまず, モデルをスクラッチからトレーニングし, 直接知識伝達機構を用いた場合と比較して, MPLの利点を実証した。
次に、MTQ-Netの予測能力を向上させるために、Huber損失の利点を検証する。
最後に、MTQ-Net with the MPLアプローチは、他のSSLベースの音声アセスメントモデルと比較して、全体的な予測能力が高い。
関連論文リスト
- Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Q-Align: Teaching LMMs for Visual Scoring via Discrete Text-Defined
Levels [95.44077384918725]
スコアの代わりにテキスト定義のレーティングレベルを持つ大規模マルチモーダリティモデル(LMM)を提案する。
提案したQ-Alignは、画像品質評価(IQA)、画像美学評価(IAA)、映像品質評価(VQA)タスクにおける最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-28T16:10:25Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Pre-training Language Model as a Multi-perspective Course Learner [103.17674402415582]
本研究では,サンプル効率のよい事前学習のためのマルチパースペクティブ・コース・ラーニング(MCL)手法を提案する。
本研究では,3つの自己超越コースが,「綱引き」力学の固有の欠陥を軽減するように設計されている。
本手法は,GLUEおよびSQuAD 2.0ベンチマークにおいて,ELECTRAの平均性能をそれぞれ2.8%,絶対点を3.2%向上させる。
論文 参考訳(メタデータ) (2023-05-06T09:02:10Z) - Investigating Content-Aware Neural Text-To-Speech MOS Prediction Using
Prosodic and Linguistic Features [54.48824266041105]
MOS予測ニューラルモデルに基づく自動合成音声評価の最先端手法について検討した。
MOS予測システムに付加的な入力として韻律的特徴と言語的特徴を含めることを提案する。
すべてのMOS予測システムは、クラウドソースされた自然性MOS評価を備えた、TSSのみのニューラルネットワークであるSOMOSでトレーニングされている。
論文 参考訳(メタデータ) (2022-11-01T09:18:50Z) - Improving Self-Supervised Learning-based MOS Prediction Networks [0.0]
本研究は,従来の自己教師型学習ベースMOS予測モデルに対して,データ,トレーニング,後訓練による具体的な改善を導入する。
We used a wav2vec 2.0 model pre-trained on LibriSpeech, extended with LSTM and non-linear dense layer。
この手法は,第1のVoice MOSチャレンジの共有合成音声データセットを用いて評価する。
論文 参考訳(メタデータ) (2022-04-23T09:19:16Z) - MTI-Net: A Multi-Target Speech Intelligibility Prediction Model [25.124218779681875]
本研究では,MTI-Netと呼ばれるマルチタスク音声のインテリジェンス予測モデルを提案し,人間と機械のインテリジェンス対策を同時に予測する。
具体的には、MTI-Netは、主観的な聞き取りテスト結果と単語誤り率(WER)のスコアを予測するように設計されている。
論文 参考訳(メタデータ) (2022-04-07T09:17:04Z) - Deep Learning-based Non-Intrusive Multi-Objective Speech Assessment
Model with Cross-Domain Features [30.57631206882462]
MOSA-Netは、テスト音声信号を入力として、音声品質、知性、歪み評価スコアを推定するように設計されている。
音声品質(PESQ)、短時間客観性(STOI)、音声歪み指数(BLS)のスコアを、雑音および拡張音声発話の両方で正確に予測できることを,MOSA-Netが示す。
論文 参考訳(メタデータ) (2021-11-03T17:30:43Z) - Momentum Pseudo-Labeling for Semi-Supervised Speech Recognition [55.362258027878966]
本稿では,半教師付き音声認識のための簡易かつ効果的な手法として,モーメント擬似ラベル(MPL)を提案する。
MPLは、平均的な教師メソッドにインスパイアされて、相互に相互作用し、学習するオンラインとオフラインの2つのモデルで構成されている。
実験の結果,MPLはベースモデルよりも効果的に改善され,様々な半教師付きシナリオに拡張可能であることが示された。
論文 参考訳(メタデータ) (2021-06-16T16:24:55Z) - On Minimum Word Error Rate Training of the Hybrid Autoregressive
Transducer [40.63693071222628]
ハイブリッド自己回帰変換器(HAT)の最小単語誤り率(MWER)訓練について検討する。
約3万時間のトレーニングデータを用いた実験から,MWERトレーニングがHATモデルの精度を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-23T21:16:30Z) - Neural MOS Prediction for Synthesized Speech Using Multi-Task Learning
With Spoofing Detection and Spoofing Type Classification [16.43844160498413]
MOS予測モデルの性能向上のためのマルチタスク学習(MTL)手法を提案する。
Voice Conversion Challenge 2018を使った実験では、2つの補助タスクを備えたMTLの提案がMOS予測を改善することが示されている。
論文 参考訳(メタデータ) (2020-07-16T11:38:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。