論文の概要: Multi-Task Pseudo-Label Learning for Non-Intrusive Speech Quality
Assessment Model
- arxiv url: http://arxiv.org/abs/2308.09262v1
- Date: Fri, 18 Aug 2023 02:36:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 14:56:19.111341
- Title: Multi-Task Pseudo-Label Learning for Non-Intrusive Speech Quality
Assessment Model
- Title(参考訳): 非インタラクティブ音声品質評価モデルのためのマルチタスク擬似ラベル学習
- Authors: Ryandhimas E. Zezario, Bo-Ren Brian Bai, Chiou-Shann Fuh, Hsin-Min
Wang and Yu Tsao
- Abstract要約: 本研究では,非侵入的音声品質評価モデルに対するマルチタスク擬似ラベル学習(MPL)を提案する。
MPLは、事前訓練されたモデルから擬似ラベルスコアを取得し、マルチタスク学習を行う2つのステージから構成される。
- 参考スコア(独自算出の注目度): 28.32514067707762
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study introduces multi-task pseudo-label (MPL) learning for a
non-intrusive speech quality assessment model. MPL consists of two stages which
are obtaining pseudo-label scores from a pretrained model and performing
multi-task learning. The 3QUEST metrics, namely Speech-MOS (S-MOS), Noise-MOS
(N-MOS), and General-MOS (G-MOS) are selected as the primary ground-truth
labels. Additionally, the pretrained MOSA-Net model is utilized to estimate
three pseudo-labels: perceptual evaluation of speech quality (PESQ), short-time
objective intelligibility (STOI), and speech distortion index (SDI). Multi-task
learning stage of MPL is then employed to train the MTQ-Net model (multi-target
speech quality assessment network). The model is optimized by incorporating
Loss supervision (derived from the difference between the estimated score and
the real ground-truth labels) and Loss semi-supervision (derived from the
difference between the estimated score and pseudo-labels), where Huber loss is
employed to calculate the loss function. Experimental results first demonstrate
the advantages of MPL compared to training the model from scratch and using
knowledge transfer mechanisms. Secondly, the benefits of Huber Loss in
improving the prediction model of MTQ-Net are verified. Finally, the MTQ-Net
with the MPL approach exhibits higher overall prediction capabilities when
compared to other SSL-based speech assessment models.
- Abstract(参考訳): 本研究では,非侵入的音声品質評価モデルに対するマルチタスク擬似ラベル学習を提案する。
MPLは、事前訓練されたモデルから擬似ラベルスコアを取得し、マルチタスク学習を行う2つのステージから構成される。
3QUESTの指標として、音声MOS(S-MOS)、ノイズMOS(N-MOS)、ジェネラルMOS(G-MOS)が選定される。
さらに、事前訓練されたMOSA-Netモデルを用いて、音声品質の知覚評価(PESQ)、短時間客観的インテリジェンス(STOI)、音声歪み指標(SDI)の3つの擬似ラベルを推定する。
MPLのマルチタスク学習段階は、MTQ-Netモデル(マルチターゲット音声品質評価ネットワーク)の訓練に使用される。
このモデルは、損失監督(推定スコアと実際の接地ラベルの違いに由来する)と損失半スーパービジョン(推定スコアと擬似ラベルの違いに由来する)を組み込んで最適化され、フーバー損失を用いて損失関数を算出する。
実験結果はまず,モデルをスクラッチからトレーニングし,知識伝達機構を用いた場合と比較して,mplの利点を示す。
次に,mtq-netの予測モデル改善におけるフーバー損失の利点を検証する。
最後に、MTQ-Net with the MPLアプローチは、他のSSLベースの音声アセスメントモデルと比較して、全体的な予測能力が高い。
関連論文リスト
- Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Q-Align: Teaching LMMs for Visual Scoring via Discrete Text-Defined
Levels [95.44077384918725]
スコアの代わりにテキスト定義のレーティングレベルを持つ大規模マルチモーダリティモデル(LMM)を提案する。
提案したQ-Alignは、画像品質評価(IQA)、画像美学評価(IAA)、映像品質評価(VQA)タスクにおける最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-28T16:10:25Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Pre-training Language Model as a Multi-perspective Course Learner [103.17674402415582]
本研究では,サンプル効率のよい事前学習のためのマルチパースペクティブ・コース・ラーニング(MCL)手法を提案する。
本研究では,3つの自己超越コースが,「綱引き」力学の固有の欠陥を軽減するように設計されている。
本手法は,GLUEおよびSQuAD 2.0ベンチマークにおいて,ELECTRAの平均性能をそれぞれ2.8%,絶対点を3.2%向上させる。
論文 参考訳(メタデータ) (2023-05-06T09:02:10Z) - Investigating Content-Aware Neural Text-To-Speech MOS Prediction Using
Prosodic and Linguistic Features [54.48824266041105]
MOS予測ニューラルモデルに基づく自動合成音声評価の最先端手法について検討した。
MOS予測システムに付加的な入力として韻律的特徴と言語的特徴を含めることを提案する。
すべてのMOS予測システムは、クラウドソースされた自然性MOS評価を備えた、TSSのみのニューラルネットワークであるSOMOSでトレーニングされている。
論文 参考訳(メタデータ) (2022-11-01T09:18:50Z) - Improving Self-Supervised Learning-based MOS Prediction Networks [0.0]
本研究は,従来の自己教師型学習ベースMOS予測モデルに対して,データ,トレーニング,後訓練による具体的な改善を導入する。
We used a wav2vec 2.0 model pre-trained on LibriSpeech, extended with LSTM and non-linear dense layer。
この手法は,第1のVoice MOSチャレンジの共有合成音声データセットを用いて評価する。
論文 参考訳(メタデータ) (2022-04-23T09:19:16Z) - MTI-Net: A Multi-Target Speech Intelligibility Prediction Model [25.124218779681875]
本研究では,MTI-Netと呼ばれるマルチタスク音声のインテリジェンス予測モデルを提案し,人間と機械のインテリジェンス対策を同時に予測する。
具体的には、MTI-Netは、主観的な聞き取りテスト結果と単語誤り率(WER)のスコアを予測するように設計されている。
論文 参考訳(メタデータ) (2022-04-07T09:17:04Z) - Momentum Pseudo-Labeling for Semi-Supervised Speech Recognition [55.362258027878966]
本稿では,半教師付き音声認識のための簡易かつ効果的な手法として,モーメント擬似ラベル(MPL)を提案する。
MPLは、平均的な教師メソッドにインスパイアされて、相互に相互作用し、学習するオンラインとオフラインの2つのモデルで構成されている。
実験の結果,MPLはベースモデルよりも効果的に改善され,様々な半教師付きシナリオに拡張可能であることが示された。
論文 参考訳(メタデータ) (2021-06-16T16:24:55Z) - Learning to Maximize Speech Quality Directly Using MOS Prediction for
Neural Text-to-Speech [15.796199345773873]
本稿では,知覚的損失の監視の下でTSモデルを訓練することにより,音声品質を向上させる新しい手法を提案する。
まず、平均世論スコア(MOS)予測モデルを事前訓練し、次に合成音声のMOSを最大化するためにTSモデルを訓練する。
提案手法は,TSモデルアーキテクチャや音声品質劣化の原因に関わらず,独立して適用することができる。
論文 参考訳(メタデータ) (2020-11-02T18:13:48Z) - On Minimum Word Error Rate Training of the Hybrid Autoregressive
Transducer [40.63693071222628]
ハイブリッド自己回帰変換器(HAT)の最小単語誤り率(MWER)訓練について検討する。
約3万時間のトレーニングデータを用いた実験から,MWERトレーニングがHATモデルの精度を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-23T21:16:30Z) - Neural MOS Prediction for Synthesized Speech Using Multi-Task Learning
With Spoofing Detection and Spoofing Type Classification [16.43844160498413]
MOS予測モデルの性能向上のためのマルチタスク学習(MTL)手法を提案する。
Voice Conversion Challenge 2018を使った実験では、2つの補助タスクを備えたMTLの提案がMOS予測を改善することが示されている。
論文 参考訳(メタデータ) (2020-07-16T11:38:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。