論文の概要: Multi-speaker Text-to-speech Synthesis Using Deep Gaussian Processes
- arxiv url: http://arxiv.org/abs/2008.02950v1
- Date: Fri, 7 Aug 2020 02:03:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 02:06:05.508657
- Title: Multi-speaker Text-to-speech Synthesis Using Deep Gaussian Processes
- Title(参考訳): ディープガウス過程を用いたマルチスピーカー音声合成
- Authors: Kentaro Mitsui, Tomoki Koriyama, Hiroshi Saruwatari
- Abstract要約: マルチスピーカ音声合成は,複数の話者の声を単一モデルでモデル化する手法である。
ディープガウス過程(DGP)と潜在変数モデル(DGPLVM)を用いた多話者音声合成のためのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 36.63589873242547
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multi-speaker speech synthesis is a technique for modeling multiple speakers'
voices with a single model. Although many approaches using deep neural networks
(DNNs) have been proposed, DNNs are prone to overfitting when the amount of
training data is limited. We propose a framework for multi-speaker speech
synthesis using deep Gaussian processes (DGPs); a DGP is a deep architecture of
Bayesian kernel regressions and thus robust to overfitting. In this framework,
speaker information is fed to duration/acoustic models using speaker codes. We
also examine the use of deep Gaussian process latent variable models (DGPLVMs).
In this approach, the representation of each speaker is learned simultaneously
with other model parameters, and therefore the similarity or dissimilarity of
speakers is considered efficiently. We experimentally evaluated two situations
to investigate the effectiveness of the proposed methods. In one situation, the
amount of data from each speaker is balanced (speaker-balanced), and in the
other, the data from certain speakers are limited (speaker-imbalanced).
Subjective and objective evaluation results showed that both the DGP and DGPLVM
synthesize multi-speaker speech more effective than a DNN in the
speaker-balanced situation. We also found that the DGPLVM outperforms the DGP
significantly in the speaker-imbalanced situation.
- Abstract(参考訳): マルチスピーカ音声合成は,複数の話者の声を単一モデルでモデル化する手法である。
ディープニューラルネットワーク(DNN)を用いた多くのアプローチが提案されているが、トレーニングデータの量を制限すると、DNNは過度に適合する傾向にある。
本稿では,ディープガウス過程(DGP)を用いた多話者音声合成のためのフレームワークを提案する。
このフレームワークでは、話者情報は話者コードを用いて持続時間/音響モデルに供給される。
また,DGPLVM (Deep Gaussian Process Latent variable Model) の利用についても検討した。
このアプローチでは、各話者の表現は他のモデルパラメータと同時に学習されるため、話者の類似性や類似性が効率的に考慮される。
提案手法の有効性を検討するための2つの条件を実験的に評価した。
ある状況では、各話者のデータ量がバランス(スピーカーバランス)され、他方では、特定の話者のデータが制限(スピーカーバランス)される。
主観的および客観的評価の結果、DGPとDGPLVMは、話者バランス状況下では、DNNよりも効果的にマルチスピーカ音声を合成することがわかった。
また、DGPLVMは話者不均衡状況において、DGPを著しく上回ります。
関連論文リスト
- DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - ECAPA-TDNN for Multi-speaker Text-to-speech Synthesis [13.676243543864347]
本稿では,高品質な音声を生成できるエンドツーエンド手法を提案する。
この方法は、最先端のTDNNベースのECAPA-TDNNに基づく話者エンコーダ、FastSpeech2ベースのシンセサイザー、HiFi-GANボコーダの3つの別々に訓練されたコンポーネントで構成されている。
論文 参考訳(メタデータ) (2022-03-20T07:04:26Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Meta-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech [62.95422526044178]
マルチスピーカTSモデルのトレーニングアルゴリズムとして,MAML(Model Agnostic Meta-Learning)を用いる。
その結果,Meta-TTSは話者適応ベースラインよりも適応ステップが少ない少数のサンプルから高い話者類似性音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-07T09:53:31Z) - GC-TTS: Few-shot Speaker Adaptation with Geometric Constraints [36.07346889498981]
話者類似性を大幅に向上した高品質な話者適応を実現するGC-TTSを提案する。
TTSモデルは、十分な量のデータを持つベーススピーカーに対して事前訓練され、それから2つの幾何学的制約を持つ数分のデータに基づいて、新しいスピーカーのために微調整される。
実験結果から,GC-TTSは学習データの数分で高品質な音声を生成できることがわかった。
論文 参考訳(メタデータ) (2021-08-16T04:25:31Z) - GANSpeech: Adversarial Training for High-Fidelity Multi-Speaker Speech
Synthesis [6.632254395574993]
GANSpeechは、非自己回帰型マルチスピーカTSモデルに対向訓練法を採用する高忠実度マルチスピーカTSモデルである。
主観的な聴取試験では、GANSpeechはベースラインのマルチスピーカーであるFastSpeechとFastSpeech2モデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-06-29T08:15:30Z) - Streaming Multi-speaker ASR with RNN-T [8.701566919381223]
本研究は、リカレントニューラルネットワークトランスデューサ(RNN-T)に基づくマルチスピーカ音声認識に焦点を当てている。
RNN-Tの高レベル話者追跡能力を高めるために,前者における話者順ラベルの分離が重要であることを示す。
我々の最良モデルは、前述した最先端非ストリーミングモデル(10.3%)と競合する2話者Libriデータ上で10.2%のWERを達成する。
論文 参考訳(メタデータ) (2020-11-23T19:10:40Z) - DNN Speaker Tracking with Embeddings [0.0]
埋め込み型話者追跡手法を提案する。
我々の設計は、典型的な話者検証PLDAを模倣した畳み込みニューラルネットワークに基づいている。
ベースラインシステムを話者追跡と類似させるため、非ターゲット話者を録音に追加した。
論文 参考訳(メタデータ) (2020-07-13T18:40:14Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。