論文の概要: Deep Learning Based Assessment of Synthetic Speech Naturalness
- arxiv url: http://arxiv.org/abs/2104.11673v1
- Date: Fri, 23 Apr 2021 16:05:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 13:16:11.663309
- Title: Deep Learning Based Assessment of Synthetic Speech Naturalness
- Title(参考訳): 深層学習による合成音声の自然性評価
- Authors: Gabriel Mittag, Sebastian M\"oller
- Abstract要約: 合成音声の自然性に対する新たな客観的予測モデルを提案する。
Text-To-SpeechまたはVoice Conversionシステムの評価に使用できる。
- 参考スコア(独自算出の注目度): 14.463987018380468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a new objective prediction model for synthetic
speech naturalness. It can be used to evaluate Text-To-Speech or Voice
Conversion systems and works language independently. The model is trained
end-to-end and based on a CNN-LSTM network that previously showed to give good
results for speech quality estimation. We trained and tested the model on 16
different datasets, such as from the Blizzard Challenge and the Voice
Conversion Challenge. Further, we show that the reliability of deep
learning-based naturalness prediction can be improved by transfer learning from
speech quality prediction models that are trained on objective POLQA scores.
The proposed model is made publicly available and can, for example, be used to
evaluate different TTS system configurations.
- Abstract(参考訳): 本稿では,合成音声の自然性に関する新しい客観的予測モデルを提案する。
Text-To-SpeechまたはVoice Conversionシステムの評価に使用でき、言語を独立して動作させる。
このモデルはエンドツーエンドで訓練されており、CNN-LSTMネットワークをベースとしている。
私たちは、Blizzard ChallengeやVoice Conversion Challengeなど、16の異なるデータセットでモデルをトレーニングし、テストしました。
さらに,目的語POLQAスコアに基づいて学習した音声品質予測モデルからの変換学習により,深層学習に基づく自然度予測の信頼性を向上させることができることを示す。
提案したモデルは公開されており、例えば、異なるTSシステム構成を評価するために使用することができる。
関連論文リスト
- A Suite for Acoustic Language Model Evaluation [20.802090523583196]
SALMonは、背景雑音、感情、話者識別、室内インパルス応答を含む新しい評価スイートである。
SALMon 上で複数の言語モデルを評価し,評価手法の長所と短所を強調した。
論文 参考訳(メタデータ) (2024-09-11T17:34:52Z) - Developing Acoustic Models for Automatic Speech Recognition in Swedish [6.5458610824731664]
本稿では,トレーニング可能なシステムを用いた自動連続音声認識について述べる。
この研究の目的はスウェーデン語話者のための音響モデルを構築することである。
論文 参考訳(メタデータ) (2024-04-25T12:03:14Z) - NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level
Quality [123.97136358092585]
我々は、ベンチマークデータセット上で人間レベルの品質を実現するNaturalSpeechと呼ばれるTSシステムを開発した。
具体的には、波形生成のための変分オートエンコーダ(VAE)を利用する。
LJSpeechデータセットを用いた実験により,提案したNaturalSpeechは文レベルでの人間の記録に対して-0.01CMOSを達成した。
論文 参考訳(メタデータ) (2022-05-09T16:57:35Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - Deep MOS Predictor for Synthetic Speech Using Cluster-Based Modeling [16.43844160498413]
最近のいくつかの論文では、ディープラーニングに基づくアセスメントモデルが提案されている。
本稿では,クラスタモデルを用いた3つのモデルを提案する。
GQT層は、タスクを自動的に学習することで、人間の評価をより良く予測できることを示す。
論文 参考訳(メタデータ) (2020-08-09T11:14:19Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。