論文の概要: Uncertainty as a Predictor: Leveraging Self-Supervised Learning for
Zero-Shot MOS Prediction
- arxiv url: http://arxiv.org/abs/2312.15616v1
- Date: Mon, 25 Dec 2023 05:35:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 17:15:44.421415
- Title: Uncertainty as a Predictor: Leveraging Self-Supervised Learning for
Zero-Shot MOS Prediction
- Title(参考訳): 予測器としての不確実性:ゼロショットMOS予測のための自己監督学習の活用
- Authors: Aditya Ravuri, Erica Cooper, Junichi Yamagishi
- Abstract要約: 本稿では,低リソース環境における高効率な音質予測のギャップについて論じる。
我々は、wav2vecのような事前訓練された自己教師型学習モデルから得られた不確実性はVoiceMOSスコアと相関することを示した。
- 参考スコア(独自算出の注目度): 40.51248841706311
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Predicting audio quality in voice synthesis and conversion systems is a
critical yet challenging task, especially when traditional methods like Mean
Opinion Scores (MOS) are cumbersome to collect at scale. This paper addresses
the gap in efficient audio quality prediction, especially in low-resource
settings where extensive MOS data from large-scale listening tests may be
unavailable. We demonstrate that uncertainty measures derived from
out-of-the-box pretrained self-supervised learning (SSL) models, such as
wav2vec, correlate with MOS scores. These findings are based on data from the
2022 and 2023 VoiceMOS challenges. We explore the extent of this correlation
across different models and language contexts, revealing insights into how
inherent uncertainties in SSL models can serve as effective proxies for audio
quality assessment. In particular, we show that the contrastive wav2vec models
are the most performant in all settings.
- Abstract(参考訳): 音声合成と変換システムにおける音声品質の予測は、特に平均世論スコア(mos)のような従来の方法が大規模に収集するには難しい場合、非常に難しい課題である。
本稿では,高効率なオーディオ品質予測におけるギャップ,特に大規模リスニングテストからの広範囲mosデータが利用できない低リソース環境について述べる。
我々は,wav2vec などの事前学習型自己教師付き学習(ssl)モデルから得られる不確実性尺度が mos スコアと相関することを示す。
これらの結果は2022年と2023年のvoicemosチャレンジのデータに基づいている。
我々は、異なるモデルと言語コンテキストにおけるこの相関関係の範囲について検討し、SSLモデルに固有の不確かさが、オーディオ品質評価の効果的なプロキシとしてどのように役立つかを明らかにする。
特に、コントラストのwav2vecモデルが、すべての設定において最もパフォーマンスが高いことを示す。
関連論文リスト
- CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - Enhancing Audio-Language Models through Self-Supervised Post-Training with Text-Audio Pairs [3.8300818830608345]
音声とテキストのマルチモーダルコントラスト学習戦略が急速に注目されている。
これらのモデルが自然言語や時間的関係を理解する能力は、いまだに未探索でオープンな研究分野である。
本稿では,時間的インスツルメント手法であるTeminalを用いて,時間的理解を伴うマルチモーダルALMを,従来の音声言語タスクの能力を損なうことなく装備することを提案する。
論文 参考訳(メタデータ) (2024-08-17T18:53:17Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - Resource-Efficient Fine-Tuning Strategies for Automatic MOS Prediction
in Text-to-Speech for Low-Resource Languages [1.1852406625172218]
我々は、オープンアクセスデータセットBVCCとSOMOSを用いて、wav2vec 2.0に基づくMOS予測モデルを訓練する。
低リソース言語(LRL)ウェスト・フリジアンのニューラルネットワークを用いたテストでは、SOMOSを微調整する前にBVCCで事前トレーニングを行うことで、微調整とゼロショット予測の両方に最適な精度が得られた。
論文 参考訳(メタデータ) (2023-05-30T20:19:56Z) - Investigating Content-Aware Neural Text-To-Speech MOS Prediction Using
Prosodic and Linguistic Features [54.48824266041105]
MOS予測ニューラルモデルに基づく自動合成音声評価の最先端手法について検討した。
MOS予測システムに付加的な入力として韻律的特徴と言語的特徴を含めることを提案する。
すべてのMOS予測システムは、クラウドソースされた自然性MOS評価を備えた、TSSのみのニューラルネットワークであるSOMOSでトレーニングされている。
論文 参考訳(メタデータ) (2022-11-01T09:18:50Z) - Comparison of Speech Representations for the MOS Prediction System [1.2949520455740093]
我々は,過去のBlizzardとVoice Conversion Challengesから収集した大規模聴取テストコーパスの実験を行った。
wav2vec の特徴集合は, 与えられた接地構造が常に信頼できるとは限らないにもかかわらず, 最高の一般化を示した。
論文 参考訳(メタデータ) (2022-06-28T08:18:18Z) - Improving Self-Supervised Learning-based MOS Prediction Networks [0.0]
本研究は,従来の自己教師型学習ベースMOS予測モデルに対して,データ,トレーニング,後訓練による具体的な改善を導入する。
We used a wav2vec 2.0 model pre-trained on LibriSpeech, extended with LSTM and non-linear dense layer。
この手法は,第1のVoice MOSチャレンジの共有合成音声データセットを用いて評価する。
論文 参考訳(メタデータ) (2022-04-23T09:19:16Z) - SOMOS: The Samsung Open MOS Dataset for the Evaluation of Neural
Text-to-Speech Synthesis [50.236929707024245]
SOMOSデータセットは、単にニューラルテキスト音声(TTS)サンプルからなる最初の大規模平均世論スコア(MOS)データセットである。
パブリックドメイン音声データセットであるLJ音声の合成発話20Kから成っている。
論文 参考訳(メタデータ) (2022-04-06T18:45:20Z) - Membership Inference Attacks Against Self-supervised Speech Models [62.73937175625953]
連続音声における自己教師付き学習(SSL)が注目されている。
ブラックボックスアクセス下でのMIA(Commanship Inference Attacks)を用いたSSL音声モデルに対する最初のプライバシ分析を行う。
論文 参考訳(メタデータ) (2021-11-09T13:00:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。