論文の概要: A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural
TTS
- arxiv url: http://arxiv.org/abs/2209.10887v1
- Date: Thu, 22 Sep 2022 09:43:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 14:20:10.020014
- Title: A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural
TTS
- Title(参考訳): マルチステージマルチコードVQ-VAEによる高性能ニューラルネットワークTTS
- Authors: Haohan Guo, Fenglong Xie, Frank K. Soong, Xixin Wu, Helen Meng
- Abstract要約: 高速なTTS合成のためのマルチステージマルチコードブック(MSMC)手法を提案する。
ベクトル量子化可変オートエンコーダ(VQ-VAE)に基づく特徴解析器を用いて,音声訓練データのメルスペクトルを符号化する。
合成において、ニューラルネットワークは予測されたSMCRを最終的な音声波形に変換する。
- 参考スコア(独自算出の注目度): 52.51848317549301
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a Multi-Stage, Multi-Codebook (MSMC) approach to high-performance
neural TTS synthesis. A vector-quantized, variational autoencoder (VQ-VAE)
based feature analyzer is used to encode Mel spectrograms of speech training
data by down-sampling progressively in multiple stages into MSMC
Representations (MSMCRs) with different time resolutions, and quantizing them
with multiple VQ codebooks, respectively. Multi-stage predictors are trained to
map the input text sequence to MSMCRs progressively by minimizing a combined
loss of the reconstruction Mean Square Error (MSE) and "triplet loss". In
synthesis, the neural vocoder converts the predicted MSMCRs into final speech
waveforms. The proposed approach is trained and tested with an English TTS
database of 16 hours by a female speaker. The proposed TTS achieves an MOS
score of 4.41, which outperforms the baseline with an MOS of 3.62. Compact
versions of the proposed TTS with much less parameters can still preserve high
MOS scores. Ablation studies show that both multiple stages and multiple
codebooks are effective for achieving high TTS performance.
- Abstract(参考訳): 本稿では,高性能ニューラルネットワークtts合成のためのマルチステージマルチコードブック(msmc)手法を提案する。
ベクトル量子化可変オートエンコーダ(VQ-VAE)に基づく特徴解析器を用いて,複数の段階の音声訓練データのメルスペクトルを,時間分解能の異なるMSMC表現(MSMCR)に段階的にダウンサンプリングして符号化し,複数のVQコードブックで定量化する。
マルチステージ予測器は,MSE (Mean Square Error) と "triplet loss" の併用損失を最小化することにより,入力テキストシーケンスを MSMCR に徐々にマッピングするように訓練される。
合成において、ニューラルボコーダは予測されたmsmcrを最終音声波形に変換する。
提案手法は,女性話者による16時間の英語ttsデータベースを用いて訓練およびテストを行った。
提案したTSは、MOSスコアが4.41で、MOSが3.62でベースラインを上回っている。
パラメータがはるかに少ないttsのコンパクト版は、高いmosスコアを保持することができる。
アブレーション研究では、複数のステージと複数のコードブックが高いTS性能を達成するのに有効であることが示されている。
関連論文リスト
- VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - EM-TTS: Efficiently Trained Low-Resource Mongolian Lightweight Text-to-Speech [4.91849983180793]
本稿では,深層畳み込みニューラルネットワークに基づくテキスト音声合成システムを提案する。
私たちのモデルは、Text2SpectrumとSSRNの2つのステージで構成されています。
実験の結果,合成音声の品質と自然性を確保しつつ,学習時間とパラメータを低減できることがわかった。
論文 参考訳(メタデータ) (2024-03-13T01:27:57Z) - QS-TTS: Towards Semi-Supervised Text-to-Speech Synthesis via
Vector-Quantized Self-Supervised Speech Representation Learning [65.35080911787882]
本稿では、教師付きデータ要求の少ないTS品質を実現するための、新しい半教師付きTSフレームワークQS-TTSを提案する。
2つのVQ-S3R学習者は、TSのための有益な音声表現と事前訓練されたモデルを提供する。
その結果、QS-TTSの優れた性能を示し、教師付きまたは半教師付きベースラインTSアプローチよりも最高のMOSを獲得した。
論文 参考訳(メタデータ) (2023-08-31T20:25:44Z) - Towards Robust FastSpeech 2 by Modelling Residual Multimodality [4.4904382374090765]
FastSpeech 2に基づく最先端の非自己回帰型音声合成モデルは、高忠実度と自然な音声を効率的に合成することができる。
表現型音声データセットにおける特徴的音声歪みを観察する。
TVC-GMMはスペクトログラムの滑らかさを低減し、特に表現的データセットの知覚音質を改善する。
論文 参考訳(メタデータ) (2023-06-02T11:03:26Z) - Multi-scale Transformer Network with Edge-aware Pre-training for
Cross-Modality MR Image Synthesis [52.41439725865149]
クロスモダリティ磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。
既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多くのペア化されたマルチモーダルデータを必要とすることが多い。
マルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T11:40:40Z) - MAST: Multiscale Audio Spectrogram Transformers [53.06337011259031]
音声分類のためのマルチスケール音声スペクトログラム変換器(MAST)について,マルチスケール特徴階層の概念をAST(Audio Spectrogram Transformer)に適用した。
実際に、MASTはLAPEベンチマークの8つの音声および非音声タスクで平均3.4%の精度でASTを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-02T23:34:12Z) - Towards High-Quality Neural TTS for Low-Resource Languages by Learning
Compact Speech Representations [43.31594896204752]
本稿では、コンパクトな音声表現を用いた訓練データ要求を低減し、低リソースのTSを強化することを目的とする。
Multi-Stage Multi-Codebook (MSMC) VQ-GANは、MSMCRを学習し、それを波形に復号するために訓練される。
低リソース言語でMSMCRを学習するために、より多くのオーディオを活用することで、トレーニング戦略を最適化する。
論文 参考訳(メタデータ) (2022-10-27T02:32:00Z) - Streaming Multi-Talker ASR with Token-Level Serialized Output Training [53.11450530896623]
t-SOTはマルチトーカー自動音声認識のための新しいフレームワークである。
t-SOTモデルには、推論コストの低減とよりシンプルなモデルアーキテクチャの利点がある。
重複しない音声の場合、t-SOTモデルは精度と計算コストの両面において単一ストーカーのASRモデルと同等である。
論文 参考訳(メタデータ) (2022-02-02T01:27:21Z) - Multi-view Frequency LSTM: An Efficient Frontend for Automatic Speech
Recognition [4.753402561130792]
複数のFLSTMスタックの出力を異なるビューで組み合わせることで、シンプルで効率的な修正を行う。
本研究では,マルチビューFLSTM音響モデルにより,話者・音響環境の異なるシナリオに対して,単語誤り率(WER)が3~7%向上することを示す。
論文 参考訳(メタデータ) (2020-06-30T22:19:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。