論文の概要: Comparison of Speech Representations for the MOS Prediction System
- arxiv url: http://arxiv.org/abs/2206.13817v1
- Date: Tue, 28 Jun 2022 08:18:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-02 12:58:52.705645
- Title: Comparison of Speech Representations for the MOS Prediction System
- Title(参考訳): MOS予測システムにおける音声表現の比較
- Authors: Aki Kunikoshi, Jaebok Kim, Wonsuk Jun and K\r{a}re Sj\"olander
(ReadSpeaker)
- Abstract要約: 我々は,過去のBlizzardとVoice Conversion Challengesから収集した大規模聴取テストコーパスの実験を行った。
wav2vec の特徴集合は, 与えられた接地構造が常に信頼できるとは限らないにもかかわらず, 最高の一般化を示した。
- 参考スコア(独自算出の注目度): 1.2949520455740093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic methods to predict Mean Opinion Score (MOS) of listeners have been
researched to assure the quality of Text-to-Speech systems. Many previous
studies focus on architectural advances (e.g. MBNet, LDNet, etc.) to capture
relations between spectral features and MOS in a more effective way and
achieved high accuracy. However, the optimal representation in terms of
generalization capability still largely remains unknown. To this end, we
compare the performance of Self-Supervised Learning (SSL) features obtained by
the wav2vec framework to that of spectral features such as magnitude of
spectrogram and melspectrogram. Moreover, we propose to combine the SSL
features and features which we believe to retain essential information to the
automatic MOS to compensate each other for their drawbacks. We conduct
comprehensive experiments on a large-scale listening test corpus collected from
past Blizzard and Voice Conversion Challenges. We found that the wav2vec
feature set showed the best generalization even though the given ground-truth
was not always reliable. Furthermore, we found that the combinations performed
the best and analyzed how they bridged the gap between spectral and the wav2vec
feature sets.
- Abstract(参考訳): 聴取者の平均オピニオンスコア(MOS)を自動予測してテキスト音声システムの品質を保証する手法が研究されている。
以前の多くの研究は、スペクトル特徴とMOSの関係をより効果的に捉え、高い精度を達成するためのアーキテクチャの進歩(MBNet、LDNetなど)に焦点を当てていた。
しかし、一般化能力の観点からの最適表現はいまだに不明である。
この目的のために、wav2vecフレームワークによって得られた自己監視学習(SSL)機能と、スペクトル図やメロトログラム等のスペクトル特徴の比較を行った。
さらに,自動MOSに重要な情報を保持すると信じているSSL機能と機能を組み合わせることで,その欠点を補うことを提案する。
我々は,過去のBlizzardとVoice Conversion Challengesから収集した大規模聴取テストコーパスについて包括的な実験を行った。
その結果,Wav2vecは必ずしも信頼できないにもかかわらず,最適の一般化を示した。
さらに,これらの組み合わせが最善を尽くし,スペクトルとwav2vec特徴セットのギャップを埋める方法について分析した。
関連論文リスト
- The T05 System for The VoiceMOS Challenge 2024: Transfer Learning from Deep Image Classifier to Naturalness MOS Prediction of High-Quality Synthetic Speech [28.168242593106566]
本稿では,VoiceMOS Challenge (VMC) 2024のためのシステム(T05)を提案する。
提案システムは,高品質な合成音声に対する自然度平均評価スコア(MOS)の正確な予測に焦点を当てたVMC 2024トラック1のために設計されている。
VMC 2024 Track 1では、私たちのT05システムは、評価指標16点中7点、残りの9点中2点を達成しました。
論文 参考訳(メタデータ) (2024-09-14T05:03:18Z) - Uncertainty as a Predictor: Leveraging Self-Supervised Learning for
Zero-Shot MOS Prediction [40.51248841706311]
本稿では,低リソース環境における高効率な音質予測のギャップについて論じる。
我々は、wav2vecのような事前訓練された自己教師型学習モデルから得られた不確実性はVoiceMOSスコアと相関することを示した。
論文 参考訳(メタデータ) (2023-12-25T05:35:28Z) - Comparative Analysis of the wav2vec 2.0 Feature Extractor [42.18541127866435]
本研究では,コネクショニスト時間分類(CTC)ASRモデルにおいて,標準的な特徴抽出手法を置き換える能力について検討する。
LibriSpeechベンチマークでは従来のFEと競合し、個々のコンポーネントの影響を分析する。
論文 参考訳(メタデータ) (2023-08-08T14:29:35Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Deep Spectro-temporal Artifacts for Detecting Synthesized Speech [57.42110898920759]
本稿では,トラック1(低品質フェイク音声検出)とトラック2(部分フェイク音声検出)の総合評価を行う。
本稿では, 原時間信号, スペクトル特性, 深層埋没特性を用いて, 分光時相アーティファクトを検出した。
我々はそれぞれ1番線と2番線で4位と5位にランクインした。
論文 参考訳(メタデータ) (2022-10-11T08:31:30Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - SVTS: Scalable Video-to-Speech Synthesis [105.29009019733803]
本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。
私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
論文 参考訳(メタデータ) (2022-05-04T13:34:07Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Switching Variational Auto-Encoders for Noise-Agnostic Audio-visual
Speech Enhancement [26.596930749375474]
本稿では,異なるVAEアーキテクチャを時間的に切り換えるために,マルコフの依存関係を持つ潜在逐次変数を導入する。
モデルのパラメータを推定し、音声信号を強化するために、対応する変動予測-最大化アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-02-08T11:45:02Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。