論文の概要: Pretraining Strategies, Waveform Model Choice, and Acoustic
Configurations for Multi-Speaker End-to-End Speech Synthesis
- arxiv url: http://arxiv.org/abs/2011.04839v1
- Date: Tue, 10 Nov 2020 00:19:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 07:49:36.633480
- Title: Pretraining Strategies, Waveform Model Choice, and Acoustic
Configurations for Multi-Speaker End-to-End Speech Synthesis
- Title(参考訳): 多話者音声合成のための事前学習戦略、波形モデル選択、音響構成
- Authors: Erica Cooper, Xin Wang, Yi Zhao, Yusuke Yasuda, Junichi Yamagishi
- Abstract要約: 得られたオーディオブックデータからマルチ話者モデルを微調整することで、合成音声の未確認話者と自然性や類似性を向上させることができる。
また16kHzから24kHzのサンプリングレートでリスナーが識別でき、WaveRNNはWaveNetに匹敵する品質の出力波形を生成する。
- 参考スコア(独自算出の注目度): 47.30453049606897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We explore pretraining strategies including choice of base corpus with the
aim of choosing the best strategy for zero-shot multi-speaker end-to-end
synthesis. We also examine choice of neural vocoder for waveform synthesis, as
well as acoustic configurations used for mel spectrograms and final audio
output. We find that fine-tuning a multi-speaker model from found audiobook
data that has passed a simple quality threshold can improve naturalness and
similarity to unseen target speakers of synthetic speech. Additionally, we find
that listeners can discern between a 16kHz and 24kHz sampling rate, and that
WaveRNN produces output waveforms of a comparable quality to WaveNet, with a
faster inference time.
- Abstract(参考訳): 我々は,ゼロショット・マルチスピーカー・エンドツーエンド合成のための最善の戦略を選択することを目的として,ベースコーパスの選択を含む事前学習戦略を検討する。
また、波形合成のためのニューラルボコーダの選択や、メルスペクトログラムや最終的な音声出力に用いる音響構成についても検討する。
簡単な品質閾値を達成したオーディオブックデータからマルチ話者モデルを微調整することで、合成音声の未確認話者と自然性や類似性を向上させることができる。
さらに,16kHzから24kHzのサンプリングレートでリスナが識別できることや,WaveRNNがWaveNetに匹敵する品質の出力波形を高速な推論時間で生成できることが判明した。
関連論文リスト
- Adaptive re-calibration of channel-wise features for Adversarial Audio
Classification [0.0]
合成音声検出のための注意特徴融合を用いた特徴量の再検討を提案する。
本研究では,End2EndモデルやResnetベースモデルなど,さまざまな検出手法との比較を行った。
また,線形周波数ケプストラム係数 (LFCC) とメル周波数ケプストラム係数 (MFCC) の組み合わせにより,より優れた入力特徴表現が得られることを示した。
論文 参考訳(メタデータ) (2022-10-21T04:21:56Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - Differentiable Wavetable Synthesis [7.585969077788285]
Differentiable Wavetable Synthesis (DWTS)は、一周期波形の辞書を学習するニューラルオーディオ合成技術である。
10から20の波長で高忠実な音声合成を実現する。
入力音声のほんの数秒で、高品質なピッチシフトなどのオーディオ操作を示す。
論文 参考訳(メタデータ) (2021-11-19T01:42:42Z) - RAVE: A variational autoencoder for fast and high-quality neural audio
synthesis [2.28438857884398]
本稿では,高速かつ高品質な音声波形合成が可能なリアルタイムオーディオ変分自動エンコーダ(RAVE)を提案する。
我々のモデルは48kHzのオーディオ信号を生成できる最初のモデルであり、同時に標準のラップトップCPU上で20倍高速に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-11-09T09:07:30Z) - WaveGrad 2: Iterative Refinement for Text-to-Speech Synthesis [80.60577805727624]
WaveGrad 2は音声合成のための非自己回帰生成モデルである。
最先端のニューラルTSシステムの性能に近づき、高忠実度オーディオを生成することができる。
論文 参考訳(メタデータ) (2021-06-17T17:09:21Z) - Continuous Wavelet Vocoder-based Decomposition of Parametric Speech
Waveform Synthesis [2.6572330982240935]
音声技術システムは、音声波形を合成するためのボコーダアプローチを採用している。
WaveNetは人間の声に近い最高のモデルのひとつです。
論文 参考訳(メタデータ) (2021-06-12T20:55:44Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z) - DiffWave: A Versatile Diffusion Model for Audio Synthesis [35.406438835268816]
DiffWaveは条件および非条件波形生成のための多目的拡散確率モデルである。
メルスペクトログラムに条件付けされたニューラル・ヴォイコーディングを含む、様々な波形生成タスクで高忠実なオーディオを生成する。
これは、非条件生成課題において、自己回帰およびGANベースの波形モデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-09-21T11:20:38Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。