論文の概要: Deep MOS Predictor for Synthetic Speech Using Cluster-Based Modeling
- arxiv url: http://arxiv.org/abs/2008.03710v1
- Date: Sun, 9 Aug 2020 11:14:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 04:51:13.634003
- Title: Deep MOS Predictor for Synthetic Speech Using Cluster-Based Modeling
- Title(参考訳): クラスタベースモデリングによる合成音声の深部MOS予測
- Authors: Yeunju Choi, Youngmoon Jung, Hoirin Kim
- Abstract要約: 最近のいくつかの論文では、ディープラーニングに基づくアセスメントモデルが提案されている。
本稿では,クラスタモデルを用いた3つのモデルを提案する。
GQT層は、タスクを自動的に学習することで、人間の評価をより良く予測できることを示す。
- 参考スコア(独自算出の注目度): 16.43844160498413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While deep learning has made impressive progress in speech synthesis and
voice conversion, the assessment of the synthesized speech is still carried out
by human participants. Several recent papers have proposed deep-learning-based
assessment models and shown the potential to automate the speech quality
assessment. To improve the previously proposed assessment model, MOSNet, we
propose three models using cluster-based modeling methods: using a global
quality token (GQT) layer, using an Encoding Layer, and using both of them. We
perform experiments using the evaluation results of the Voice Conversion
Challenge 2018 to predict the mean opinion score of synthesized speech and
similarity score between synthesized speech and reference speech. The results
show that the GQT layer helps to predict human assessment better by
automatically learning the useful quality tokens for the task and that the
Encoding Layer helps to utilize frame-level scores more precisely.
- Abstract(参考訳): 深層学習は音声合成と音声変換において顕著な進歩を遂げてきたが, 人工音声の評価はまだ人間の被験者によって行われている。
近年, 深層学習に基づく評価モデルを提案し, 音声品質評価の自動化の可能性を示した。
先述した評価モデルであるmosnetを改善するために,クラスタベースのモデリング手法を用いて,グローバル品質トークン(gqt)層の使用,エンコーディング層の使用,および両者の使用という3つのモデルを提案する。
我々は、音声変換チャレンジ2018の評価結果を用いて、合成音声の平均意見スコアと合成音声と参照音声の類似度スコアを予測する実験を行った。
その結果、gqt層はタスクの有用な品質トークンを自動的に学習することで、人間評価の予測に役立ち、符号化層はフレームレベルのスコアをより正確に活用するのに役立ちます。
関連論文リスト
- Self-Supervised Speech Quality Estimation and Enhancement Using Only
Clean Speech [50.95292368372455]
ベクトル量子化変分オートエンコーダ(VQ-VAE)の量子化誤差に基づく音声評価のための自己教師付きメトリックであるVQScoreを提案する。
VQ-VAEのトレーニングはクリーン音声に依存するため、音声が歪んだときに大きな量子化誤差が期待できる。
また,ベクトル量子化機構は,自己教師付き音声強調(SE)モデルトレーニングにも有効であることがわかった。
論文 参考訳(メタデータ) (2024-02-26T06:01:38Z) - Leveraging Symmetrical Convolutional Transformer Networks for Speech to
Singing Voice Style Transfer [49.01417720472321]
我々は、入力音声とターゲットメロディのアライメントをモデル化する、SymNetと呼ばれる新しいニューラルネットワークアーキテクチャを開発する。
音声と歌声の並列データからなるNASデータセットとNHSSデータセットで実験を行う。
論文 参考訳(メタデータ) (2022-08-26T02:54:57Z) - DDKtor: Automatic Diadochokinetic Speech Analysis [13.68342426889044]
本稿では,無表記・無転写音声から子音と母音を自動的に分離する2つのディープニューラルネットワークモデルを提案する。
若い健康な個人のデータセットの結果から、LSTMモデルは現在の最先端システムよりも優れています。
LSTMモデルは、パーキンソン病データセットの未確認高齢者を対象に、訓練されたヒトアノテータに匹敵する結果を提示する。
論文 参考訳(メタデータ) (2022-06-29T13:34:03Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - ECAPA-TDNN for Multi-speaker Text-to-speech Synthesis [13.676243543864347]
本稿では,高品質な音声を生成できるエンドツーエンド手法を提案する。
この方法は、最先端のTDNNベースのECAPA-TDNNに基づく話者エンコーダ、FastSpeech2ベースのシンセサイザー、HiFi-GANボコーダの3つの別々に訓練されたコンポーネントで構成されている。
論文 参考訳(メタデータ) (2022-03-20T07:04:26Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - Deep Learning-based Non-Intrusive Multi-Objective Speech Assessment
Model with Cross-Domain Features [30.57631206882462]
MOSA-Netは、テスト音声信号を入力として、音声品質、知性、歪み評価スコアを推定するように設計されている。
音声品質(PESQ)、短時間客観性(STOI)、音声歪み指数(BLS)のスコアを、雑音および拡張音声発話の両方で正確に予測できることを,MOSA-Netが示す。
論文 参考訳(メタデータ) (2021-11-03T17:30:43Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Deep Learning Based Assessment of Synthetic Speech Naturalness [14.463987018380468]
合成音声の自然性に対する新たな客観的予測モデルを提案する。
Text-To-SpeechまたはVoice Conversionシステムの評価に使用できる。
論文 参考訳(メタデータ) (2021-04-23T16:05:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。