論文の概要: Embedding a Differentiable Mel-cepstral Synthesis Filter to a Neural
Speech Synthesis System
- arxiv url: http://arxiv.org/abs/2211.11222v1
- Date: Mon, 21 Nov 2022 07:35:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 22:18:46.483701
- Title: Embedding a Differentiable Mel-cepstral Synthesis Filter to a Neural
Speech Synthesis System
- Title(参考訳): 可微分メルケプストラム合成フィルタのニューラル音声合成システムへの埋め込み
- Authors: Takenori Yoshimura, Shinji Takaki, Kazuhiro Nakamura, Keiichiro Oura,
Yukiya Hono, Kei Hashimoto, Yoshihiko Nankaku, Keiichi Tokuda
- Abstract要約: 本稿では,従来のメル-ケプストラム合成フィルタを現代のニューラル音声合成システムに統合する。
制御性を維持したベースラインシステムから,提案システムにより音声品質が向上することを示す。
- 参考スコア(独自算出の注目度): 23.96111084078404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper integrates a classic mel-cepstral synthesis filter into a modern
neural speech synthesis system towards end-to-end controllable speech
synthesis. Since the mel-cepstral synthesis filter is explicitly embedded in
neural waveform models in the proposed system, both voice characteristics and
the pitch of synthesized speech are highly controlled via a frequency warping
parameter and fundamental frequency, respectively. We implement the
mel-cepstral synthesis filter as a differentiable and GPU-friendly module to
enable the acoustic and waveform models in the proposed system to be
simultaneously optimized in an end-to-end manner. Experiments show that the
proposed system improves speech quality from a baseline system maintaining
controllability. The core PyTorch modules used in the experiments will be
publicly available on GitHub.
- Abstract(参考訳): 本稿では,従来のメルケプストラム合成フィルタを現代のニューラル音声合成システムに統合し,エンドツーエンドの制御可能な音声合成を実現する。
メルケプストラム合成フィルタは,提案方式のニューラル波形モデルに明示的に埋め込まれているため,音声特性と合成音声のピッチは,それぞれ周波数ゆがみパラメータと基本周波数によって高度に制御される。
本稿では,メルケプストラー合成フィルタをGPU対応モジュールとして実装し,システム内の音響モデルと波形モデルをエンドツーエンドで同時最適化できるようにする。
実験により,制御性を維持するベースラインシステムから,提案システムによる音声品質の向上が示された。
この実験で使用されるコアPyTorchモジュールはGitHubで公開されている。
関連論文リスト
- Robust AI-Synthesized Speech Detection Using Feature Decomposition Learning and Synthesizer Feature Augmentation [52.0893266767733]
本稿では,特徴分解を利用して合成者非依存のコンテンツ特徴を学習する頑健なディープフェイク音声検出手法を提案する。
異なる合成器特性に対するモデルのロバスト性を高めるために,合成器の特徴増強戦略を提案する。
論文 参考訳(メタデータ) (2024-11-14T03:57:21Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Integrated Speech and Gesture Synthesis [26.267738299876314]
テキスト音声合成と共同音声合成は、これまで2つの異なる研究コミュニティによって別々の領域として扱われてきた。
統合音声・ジェスチャー合成(ISG)と呼ばれる新しい問題である,2つのモーダルを1つのモデルで合成することを提案する。
モデルは、パイプラインシステムと比較して、より高速な合成時間とパラメータ数でこれを実現することができる。
論文 参考訳(メタデータ) (2021-08-25T19:04:00Z) - FastPitchFormant: Source-filter based Decomposed Modeling for Speech
Synthesis [6.509758931804479]
ソースフィルタ理論に基づいて設計したフィードフォワード変換器を用いたTSモデルを提案する。
FastPitchFormantには、テキストと音響機能を並列に扱うユニークな構造がある。
論文 参考訳(メタデータ) (2021-06-29T07:06:42Z) - Pretraining Strategies, Waveform Model Choice, and Acoustic
Configurations for Multi-Speaker End-to-End Speech Synthesis [47.30453049606897]
得られたオーディオブックデータからマルチ話者モデルを微調整することで、合成音声の未確認話者と自然性や類似性を向上させることができる。
また16kHzから24kHzのサンプリングレートでリスナーが識別でき、WaveRNNはWaveNetに匹敵する品質の出力波形を生成する。
論文 参考訳(メタデータ) (2020-11-10T00:19:04Z) - Wave-Tacotron: Spectrogram-free end-to-end text-to-speech synthesis [25.234945748885348]
本稿では,テキスト入力から直接音声波形を生成するシーケンス・ツー・シーケンスニューラルネットワークについて述べる。
アーキテクチャは、自己回帰デコーダループに正規化フローを組み込むことで、タコトロンモデルを拡張する。
実験により,提案モデルが最先端のニューラルTSシステムに近づく品質の音声を生成することが示された。
論文 参考訳(メタデータ) (2020-11-06T19:30:07Z) - Neural Granular Sound Synthesis [53.828476137089325]
グラニュラー音声合成は、小さな波形ウィンドウの並べ替え配列に基づく一般的な音声生成技術である。
生成ニューラルネットワークは、その欠点の大部分を緩和しつつ、粒状合成を実現することができることを示す。
論文 参考訳(メタデータ) (2020-08-04T08:08:00Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z) - Eigenresiduals for improved Parametric Speech Synthesis [11.481208551940998]
音声合成装置における自然な音声を生成するための新しい励起モデルを提案する。
このモデルは、ピッチ同期残留フレームの正規正規化に基づく分解に基づいている。
HMMベースシンセサイザーにPCAベースの係数のストリームを追加し、合成中に発声励起を生成する。
論文 参考訳(メタデータ) (2020-01-02T09:39:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。