論文の概要: Eigenresiduals for improved Parametric Speech Synthesis
- arxiv url: http://arxiv.org/abs/2001.00581v1
- Date: Thu, 2 Jan 2020 09:39:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-16 04:30:25.988235
- Title: Eigenresiduals for improved Parametric Speech Synthesis
- Title(参考訳): パラメトリック音声合成のための固有残響
- Authors: Thomas Drugman, Geoffrey Wilfart, Thierry Dutoit
- Abstract要約: 音声合成装置における自然な音声を生成するための新しい励起モデルを提案する。
このモデルは、ピッチ同期残留フレームの正規正規化に基づく分解に基づいている。
HMMベースシンセサイザーにPCAベースの係数のストリームを追加し、合成中に発声励起を生成する。
- 参考スコア(独自算出の注目度): 11.481208551940998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Statistical parametric speech synthesizers have recently shown their ability
to produce natural-sounding and flexible voices. Unfortunately the delivered
quality suffers from a typical buzziness due to the fact that speech is
vocoded. This paper proposes a new excitation model in order to reduce this
undesirable effect. This model is based on the decomposition of
pitch-synchronous residual frames on an orthonormal basis obtained by Principal
Component Analysis. This basis contains a limited number of eigenresiduals and
is computed on a relatively small speech database. A stream of PCA-based
coefficients is added to our HMM-based synthesizer and allows to generate the
voiced excitation during the synthesis. An improvement compared to the
traditional excitation is reported while the synthesis engine footprint remains
under about 1Mb.
- Abstract(参考訳): 統計的パラメトリック音声合成器は、最近、自然音と柔軟な音声を作り出す能力を示した。
残念なことに、納品された品質は、音声が音声符号化されているため、典型的なバイラルに悩まされる。
本稿では,この望ましくない効果を低減すべく,新しい励起モデルを提案する。
本モデルは主成分分析により得られた正規直交基底におけるピッチ同期残差フレームの分解に基づく。
この基礎は限られた数の固有形容詞を含み、比較的小さな音声データベースで計算される。
HMMベースシンセサイザーにPCAベースの係数のストリームを追加し、合成中に発声励起を生成する。
従来の励起に比べて改良が報告され、合成エンジンのフットプリントは約1mb以下である。
関連論文リスト
- Robust AI-Synthesized Speech Detection Using Feature Decomposition Learning and Synthesizer Feature Augmentation [52.0893266767733]
本稿では,特徴分解を利用して合成者非依存のコンテンツ特徴を学習する頑健なディープフェイク音声検出手法を提案する。
異なる合成器特性に対するモデルのロバスト性を高めるために,合成器の特徴増強戦略を提案する。
論文 参考訳(メタデータ) (2024-11-14T03:57:21Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - Embedding a Differentiable Mel-cepstral Synthesis Filter to a Neural
Speech Synthesis System [23.96111084078404]
本稿では,従来のメル-ケプストラム合成フィルタを現代のニューラル音声合成システムに統合する。
制御性を維持したベースラインシステムから,提案システムにより音声品質が向上することを示す。
論文 参考訳(メタデータ) (2022-11-21T07:35:21Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - FastPitchFormant: Source-filter based Decomposed Modeling for Speech
Synthesis [6.509758931804479]
ソースフィルタ理論に基づいて設計したフィードフォワード変換器を用いたTSモデルを提案する。
FastPitchFormantには、テキストと音響機能を並列に扱うユニークな構造がある。
論文 参考訳(メタデータ) (2021-06-29T07:06:42Z) - Advances in Speech Vocoding for Text-to-Speech with Continuous
Parameters [2.6572330982240935]
本稿では,連続的なボコーダにおいて,全ての特徴が連続的であり,フレキシブルな音声合成システムを示す新しい手法を提案する。
位相歪みに基づく新しい連続雑音マスキングを提案し,残音の知覚的影響を排除した。
双方向長短期記憶 (LSTM) とゲートリカレント単位 (GRU) について検討し, 連続パラメータのモデル化に応用した。
論文 参考訳(メタデータ) (2021-06-19T12:05:01Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z) - Generating diverse and natural text-to-speech samples using a quantized
fine-grained VAE and auto-regressive prosody prior [53.69310441063162]
本稿では,より自然な音響サンプルを生成できる離散潜在空間における逐次前処理を提案する。
本研究では,聴取試験,自動音声認識(ASR)性能の客観的指標,韻律特性の測定によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T12:35:50Z) - A Deterministic plus Stochastic Model of the Residual Signal for
Improved Parametric Speech Synthesis [11.481208551940998]
残差に対する決定論的プラスモデル(DSM)の適応を提案する。
提案手法はHMMベース音声合成器に組み込まれている。
その結果,男女ともに有意な改善が認められた。
論文 参考訳(メタデータ) (2019-12-29T07:26:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。