論文の概要: A Mel Spectrogram Enhancement Paradigm Based on CWT in Speech Synthesis
- arxiv url: http://arxiv.org/abs/2406.12164v2
- Date: Tue, 9 Jul 2024 18:21:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 20:50:12.996367
- Title: A Mel Spectrogram Enhancement Paradigm Based on CWT in Speech Synthesis
- Title(参考訳): 音声合成におけるCWTに基づくメルスペクトル強調パラダイム
- Authors: Guoqiang Hu, Huaning Tan, Ruilai Li,
- Abstract要約: 連続ウェーブレット変換(CWT)に基づくメルスペクトル拡張パラダイムを提案する。
このパラダイムはより詳細なウェーブレット・スペクトログラムを導入しており、これは後処理ネットワークがデコーダによって出力されるメル・スペクトログラムを入力として取るのと同様である。
実験結果から,メルスペクトル拡張パラダイムを用いて合成した音声は,ベースラインモデルと比較してそれぞれ0.14と0.09の改善がみられた。
- 参考スコア(独自算出の注目度): 3.9940425551415597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Acoustic features play an important role in improving the quality of the synthesised speech. Currently, the Mel spectrogram is a widely employed acoustic feature in most acoustic models. However, due to the fine-grained loss caused by its Fourier transform process, the clarity of speech synthesised by Mel spectrogram is compromised in mutant signals. In order to obtain a more detailed Mel spectrogram, we propose a Mel spectrogram enhancement paradigm based on the continuous wavelet transform (CWT). This paradigm introduces an additional task: a more detailed wavelet spectrogram, which like the post-processing network takes as input the Mel spectrogram output by the decoder. We choose Tacotron2 and Fastspeech2 for experimental validation in order to test autoregressive (AR) and non-autoregressive (NAR) speech systems, respectively. The experimental results demonstrate that the speech synthesised using the model with the Mel spectrogram enhancement paradigm exhibits higher MOS, with an improvement of 0.14 and 0.09 compared to the baseline model, respectively. These findings provide some validation for the universality of the enhancement paradigm, as they demonstrate the success of the paradigm in different architectures.
- Abstract(参考訳): 音響特徴は合成音声の品質向上に重要な役割を果たしている。
現在、メル・スペクトログラムは、ほとんどの音響モデルで広く使われている音響特性である。
しかし、フーリエ変換による微細な損失のため、メル分光法により合成された音声の明瞭度はミュータント信号によって損なわれる。
より詳細なMelスペクトルを得るために,連続ウェーブレット変換(CWT)に基づくMelスペクトル拡張パラダイムを提案する。
このパラダイムは、さらに詳細なウェーブレット・スペクトログラム(英語版)を導入しており、これは後処理ネットワークがデコーダによって出力されるメル・スペクトログラムを入力として取るのと同様である。
自動回帰 (AR) と非自己回帰 (NAR) 音声システムをテストするために, 実験検証のためにTacotron2 と Fastspeech2 を選択する。
実験の結果,メルスペクトル拡張パラダイムを用いて合成した音声は,ベースラインモデルと比較して0.14と0.09の改善がみられた。
これらの結果は、異なるアーキテクチャにおけるパラダイムの成功を実証するため、拡張パラダイムの普遍性を検証している。
関連論文リスト
- Autoregressive Speech Synthesis without Vector Quantization [135.4776759536272]
テキストから音声合成(TTS)のための新しい連続値トークンに基づく言語モデリング手法であるMELLEを提案する。
MELLEはテキスト条件から直接連続メル-スペクトログラムフレームを自動回帰生成する。
論文 参考訳(メタデータ) (2024-07-11T14:36:53Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Towards Improving Harmonic Sensitivity and Prediction Stability for
Singing Melody Extraction [36.45127093978295]
本稿では,2つの仮定に基づいて,入力特徴量修正と訓練対象量修正を提案する。
後続高調波に対するモデルの感度を高めるため、離散z変換を用いた複合周波数と周期表現を修正した。
我々はこれらの修正を、MSNet、FTANet、ピアノの書き起こしネットワークから修正された新しいモデルPianoNetなど、いくつかのモデルに適用する。
論文 参考訳(メタデータ) (2023-08-04T21:59:40Z) - Towards Robust FastSpeech 2 by Modelling Residual Multimodality [4.4904382374090765]
FastSpeech 2に基づく最先端の非自己回帰型音声合成モデルは、高忠実度と自然な音声を効率的に合成することができる。
表現型音声データセットにおける特徴的音声歪みを観察する。
TVC-GMMはスペクトログラムの滑らかさを低減し、特に表現的データセットの知覚音質を改善する。
論文 参考訳(メタデータ) (2023-06-02T11:03:26Z) - MAST: Multiscale Audio Spectrogram Transformers [53.06337011259031]
音声分類のためのマルチスケール音声スペクトログラム変換器(MAST)について,マルチスケール特徴階層の概念をAST(Audio Spectrogram Transformer)に適用した。
実際に、MASTはLAPEベンチマークの8つの音声および非音声タスクで平均3.4%の精度でASTを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-02T23:34:12Z) - Audio Deepfake Detection Based on a Combination of F0 Information and
Real Plus Imaginary Spectrogram Features [51.924340387119415]
ASVspoof 2019 LAデータセットの実験結果から,提案手法はオーディオディープフェイク検出に非常に有効であることがわかった。
提案方式は音声深度検出作業に非常に有効であり,ほぼ全てのシステムにまたがる等価誤差率(EER)が0.43%に達する。
論文 参考訳(メタデータ) (2022-08-02T02:46:16Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z) - Universal MelGAN: A Robust Neural Vocoder for High-Fidelity Waveform
Generation in Multiple Domains [1.8047694351309207]
複数のドメインで高忠実度音声を合成するボコーダであるUniversal MelGANを提案する。
MelGANベースの構造は、数百人の話者のデータセットでトレーニングされている。
生成波形のスペクトル分解能を高めるために,マルチレゾリューション・スペクトログラム・ディミネータを追加した。
論文 参考訳(メタデータ) (2020-11-19T03:35:45Z) - Unsupervised Cross-Domain Speech-to-Speech Conversion with
Time-Frequency Consistency [14.062850439230111]
本稿では,逆行訓練におけるスペクトルの整合性を促進する条件を提案する。
Librispeech corpus を用いた実験結果から,TF の整合性で訓練したモデルにより,音声から音声への変換の精度が向上することが示唆された。
論文 参考訳(メタデータ) (2020-05-15T22:27:07Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。