論文の概要: A Deterministic plus Stochastic Model of the Residual Signal for
Improved Parametric Speech Synthesis
- arxiv url: http://arxiv.org/abs/2001.00842v1
- Date: Sun, 29 Dec 2019 07:26:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-17 08:04:07.670134
- Title: A Deterministic plus Stochastic Model of the Residual Signal for
Improved Parametric Speech Synthesis
- Title(参考訳): パラメトリック音声合成の改善のための残差信号の決定論的・確率的モデル
- Authors: Thomas Drugman, Geoffrey Wilfart, Thierry Dutoit
- Abstract要約: 残差に対する決定論的プラスモデル(DSM)の適応を提案する。
提案手法はHMMベース音声合成器に組み込まれている。
その結果,男女ともに有意な改善が認められた。
- 参考スコア(独自算出の注目度): 11.481208551940998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech generated by parametric synthesizers generally suffers from a typical
buzziness, similar to what was encountered in old LPC-like vocoders. In order
to alleviate this problem, a more suited modeling of the excitation should be
adopted. For this, we hereby propose an adaptation of the Deterministic plus
Stochastic Model (DSM) for the residual. In this model, the excitation is
divided into two distinct spectral bands delimited by the maximum voiced
frequency. The deterministic part concerns the low-frequency contents and
consists of a decomposition of pitch-synchronous residual frames on an
orthonormal basis obtained by Principal Component Analysis. The stochastic
component is a high-pass filtered noise whose time structure is modulated by an
energy-envelope, similarly to what is done in the Harmonic plus Noise Model
(HNM). The proposed residual model is integrated within a HMM-based speech
synthesizer and is compared to the traditional excitation through a subjective
test. Results show a significative improvement for both male and female voices.
In addition the proposed model requires few computational load and memory,
which is essential for its integration in commercial applications.
- Abstract(参考訳): パラメトリックシンセサイザーが発する音声は、通常、古いlpcライクなボコーダで見られるような、典型的なバズンジーに苦しむ。
この問題を緩和するために、より適切な励起のモデル化が採用されるべきである。
そこで本稿では,残差に対する決定論的+確率モデル(DSM)の適応を提案する。
このモデルでは、励起を最大発声周波数で区切られた2つの異なるスペクトル帯域に分割する。
決定的部分は低周波の内容に関係し、主成分分析により得られる正規直交に基づくピッチ同期残差フレームの分解からなる。
確率成分は高域通過フィルタノイズであり、時間構造はハーモニックプラスノイズモデル(HNM)と同様にエネルギーエンベロープによって変調される。
提案した残差モデルはHMMに基づく音声合成装置に統合され、主観的テストによる従来の励起と比較される。
その結果,男女ともに有意な改善が認められた。
さらに,提案モデルでは計算負荷とメモリをほとんど必要とせず,商用アプリケーションへの統合が不可欠である。
関連論文リスト
- SMRD: SURE-based Robust MRI Reconstruction with Diffusion Models [76.43625653814911]
拡散モデルは、高い試料品質のため、MRIの再生を加速するために人気を博している。
推論時に柔軟にフォワードモデルを組み込んだまま、効果的にリッチなデータプリエントとして機能することができる。
拡散モデル(SMRD)を用いたSUREに基づくMRI再構成を導入し,テスト時の堅牢性を向上する。
論文 参考訳(メタデータ) (2023-10-03T05:05:35Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - An Optimization-based Deep Equilibrium Model for Hyperspectral Image
Deconvolution with Convergence Guarantees [71.57324258813675]
本稿では,ハイパースペクトル画像のデコンボリューション問題に対処する新しい手法を提案する。
新しい最適化問題を定式化し、学習可能な正規化器をニューラルネットワークの形で活用する。
導出した反復解法は、Deep Equilibriumフレームワーク内の不動点計算問題として表現される。
論文 参考訳(メタデータ) (2023-06-10T08:25:16Z) - Self-Adapting Noise-Contrastive Estimation for Energy-Based Models [0.0]
ノイズコントラスト推定(NCE)を用いたトレーニングエネルギーベースモデルは理論的には実現可能であるが、実際は困難である。
従来の研究は、別個の生成モデルとしてノイズ分布をモデル化し、EBMでこのノイズモデルを同時に訓練してきた。
本論文では,EMMの静的なインスタンスを学習軌道に沿って雑音分布として利用する自己適応型NCEアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-03T15:17:43Z) - Period VITS: Variational Inference with Explicit Pitch Modeling for
End-to-end Emotional Speech Synthesis [19.422230767803246]
我々は,明示的な周期性生成を組み込んだ新しいエンドツーエンドテキスト音声合成モデルである Period VITS を提案する。
提案手法では,入力テキストからピッチや発声フラグなどの韻律的特徴を予測するフレームピッチ予測器を提案する。
これらの特徴から、提案した周期性発生器は、波形デコーダがピッチを正確に再現できるサンプルレベルの正弦波源を生成する。
論文 参考訳(メタデータ) (2022-10-28T07:52:30Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - FastPitchFormant: Source-filter based Decomposed Modeling for Speech
Synthesis [6.509758931804479]
ソースフィルタ理論に基づいて設計したフィードフォワード変換器を用いたTSモデルを提案する。
FastPitchFormantには、テキストと音響機能を並列に扱うユニークな構造がある。
論文 参考訳(メタデータ) (2021-06-29T07:06:42Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z) - Eigenresiduals for improved Parametric Speech Synthesis [11.481208551940998]
音声合成装置における自然な音声を生成するための新しい励起モデルを提案する。
このモデルは、ピッチ同期残留フレームの正規正規化に基づく分解に基づいている。
HMMベースシンセサイザーにPCAベースの係数のストリームを追加し、合成中に発声励起を生成する。
論文 参考訳(メタデータ) (2020-01-02T09:39:07Z) - The Deterministic plus Stochastic Model of the Residual Signal and its
Applications [13.563526970105988]
この原稿は残留信号の決定論的プラスモデル(DSM)を提示する。
次に,2分野の音声処理におけるDSMの適用性について検討した。
論文 参考訳(メタデータ) (2019-12-29T07:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。