論文の概要: Utilizing Self-supervised Representations for MOS Prediction
- arxiv url: http://arxiv.org/abs/2104.03017v1
- Date: Wed, 7 Apr 2021 09:44:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-08 12:31:36.595463
- Title: Utilizing Self-supervised Representations for MOS Prediction
- Title(参考訳): MOS予測のための自己教師付き表現の利用
- Authors: Wei-Cheng Tseng, Chien-yu Huang, Wei-Tsung Kao, Yist Y. Lin, Hung-yi
Lee
- Abstract要約: 既存の評価は通常、クリーンな参照または平行な地上真実データを必要とする。
一方、主観的テストは、追加のクリーンデータや並列データを必要としず、人間の知覚とよりよく相関する。
基礎的真理データを必要とせず,人間の知覚とよく相関する自動評価手法を開発した。
- 参考スコア(独自算出の注目度): 51.09985767946843
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Speech quality assessment has been a critical issue in speech processing for
decades. Existing automatic evaluations usually require clean references or
parallel ground truth data, which is infeasible when the amount of data soars.
Subjective tests, on the other hand, do not need any additional clean or
parallel data and correlates better to human perception. However, such a test
is expensive and time-consuming because crowd work is necessary. It thus
becomes highly desired to develop an automatic evaluation approach that
correlates well with human perception while not requiring ground truth data. In
this paper, we use self-supervised pre-trained models for MOS prediction. We
show their representations can distinguish between clean and noisy audios.
Then, we fine-tune these pre-trained models followed by simple linear layers in
an end-to-end manner. The experiment results showed that our framework
outperforms the two previous state-of-the-art models by a significant
improvement on Voice Conversion Challenge 2018 and achieves comparable or
superior performance on Voice Conversion Challenge 2016. We also conducted an
ablation study to further investigate how each module benefits the task. The
experiment results are implemented and reproducible with publicly available
toolkits.
- Abstract(参考訳): 音声品質評価は数十年間,音声処理において重要な課題となっている。
既存の自動評価は、典型的にはクリーン参照または平行接地真実データを必要とする。
一方、主観的テストは、追加のクリーンデータや並列データを必要としず、人間の知覚とよりよく相関する。
しかし、クラウドワークが必要なため、こうしたテストは高価で時間がかかります。
したがって, 根拠となる真理データを必要とせず, 人間の知覚とよく相関する自動評価手法を開発することが望まれる。
本稿では,MOS予測に自己教師付き事前学習モデルを用いる。
クリーンな音声とノイズの多い音声を区別できることを示す。
そして、これらの事前訓練されたモデルと単純な線形層をエンドツーエンドで微調整する。
実験の結果,我々のフレームワークは,2018年の音声変換チャレンジにおいて大幅に改善され,2016年の音声変換チャレンジで同等あるいは優れた性能を達成している。
また,各モジュールがタスクにどのような恩恵をもたらすか検討するために,アブレーション研究を行った。
実験結果は公開ツールキットで実装され再現可能である。
関連論文リスト
- Beyond human subjectivity and error: a novel AI grading system [67.410870290301]
オープンエンドの質問の格付けは、教育における高い努力と高いインパクトの課題である。
AI技術の最近のブレークスルーは、このような自動化を促進するかもしれないが、大規模に実証されていない。
本稿では,新しい自動短解階調システム(ASAG)を提案する。
論文 参考訳(メタデータ) (2024-05-07T13:49:59Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - How to Estimate Model Transferability of Pre-Trained Speech Models? [84.11085139766108]
事前学習音声モデルの伝達可能性推定のためのスコアベースアセスメントフレームワーク
ベイズ確率推定と最適輸送という2つの表現理論を利用して、PSM候補のランクスコアを生成する。
本フレームワークは,候補モデルやレイヤを実際に微調整することなく,転送可能性スコアを効率的に計算する。
論文 参考訳(メタデータ) (2023-06-01T04:52:26Z) - Analyzing Robustness of End-to-End Neural Models for Automatic Speech
Recognition [11.489161072526677]
音声認識のための事前学習ニューラルネットワークのロバスト性について検討する。
本研究では,LibriSpeechおよびTIMITデータセット上で,事前学習したニューラルネットワークwav2vec2, HuBERT, DistilHuBERTのロバスト性解析を行う。
論文 参考訳(メタデータ) (2022-08-17T20:00:54Z) - Reassessing Evaluation Practices in Visual Question Answering: A Case
Study on Out-of-Distribution Generalization [27.437077941786768]
大規模マルチモーダルデータ上で事前訓練された視覚・言語モデル(V&L)は,様々なタスクにおいて高い性能を示す。
異なる条件下で事前学習した2つのV&Lモデルを評価する。
これらのモデルは、VQAタスクに必要な高度なスキルを学ぶよりも、ベンチマークを解くことを学ぶ傾向にある。
論文 参考訳(メタデータ) (2022-05-24T16:44:45Z) - Improving Self-Supervised Learning-based MOS Prediction Networks [0.0]
本研究は,従来の自己教師型学習ベースMOS予測モデルに対して,データ,トレーニング,後訓練による具体的な改善を導入する。
We used a wav2vec 2.0 model pre-trained on LibriSpeech, extended with LSTM and non-linear dense layer。
この手法は,第1のVoice MOSチャレンジの共有合成音声データセットを用いて評価する。
論文 参考訳(メタデータ) (2022-04-23T09:19:16Z) - A Study of Gender Impact in Self-supervised Models for Speech-to-Text
Systems [25.468558523679363]
我々は、事前学習データにおいて、性別固有のwav2vec 2.0モデルを、性別バランスの異なるモデルと比較し、比較する。
エンドツーエンドのASRシステムを微調整する前に、性別別事前学習を用いて、全体的なパフォーマンスを低く観察する。
論文 参考訳(メタデータ) (2022-04-04T11:28:19Z) - Impact of Pretraining Term Frequencies on Few-Shot Reasoning [51.990349528930125]
事前学習された言語モデルが、事前学習データにおいてあまり頻度の低い用語でどの程度理にかなっているかを検討する。
我々は,様々な数値推論タスクにおいて,GPTに基づく言語モデルに対して,この相関関係の強さを計測する。
LMは数秒の数値推論タスクにおいて高い性能を示すが,本研究の結果は,事前学習データを超えるモデルが実際にどれだけ一般化されるのかという疑問を提起する。
論文 参考訳(メタデータ) (2022-02-15T05:43:54Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。