論文の概要: MultiSpeech: Multi-Speaker Text to Speech with Transformer
- arxiv url: http://arxiv.org/abs/2006.04664v2
- Date: Sat, 1 Aug 2020 03:45:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 01:17:12.857756
- Title: MultiSpeech: Multi-Speaker Text to Speech with Transformer
- Title(参考訳): MultiSpeech: トランスフォーマーを用いた多話者音声テキスト
- Authors: Mingjian Chen, Xu Tan, Yi Ren, Jin Xu, Hao Sun, Sheng Zhao, Tao Qin,
Tie-Yan Liu
- Abstract要約: Transformer-based text to speech (TTS)モデル(Transformer TTSciteli 2019neural, FastSpeechciteren 2019fastspeech)は、RNNベースのモデルよりもトレーニングと推論効率の利点を示している。
我々はMultiSpeechと呼ばれる堅牢で高品質なマルチスピーカトランスフォーマーTSシステムを開発した。
- 参考スコア(独自算出の注目度): 145.56725956639232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based text to speech (TTS) model (e.g., Transformer
TTS~\cite{li2019neural}, FastSpeech~\cite{ren2019fastspeech}) has shown the
advantages of training and inference efficiency over RNN-based model (e.g.,
Tacotron~\cite{shen2018natural}) due to its parallel computation in training
and/or inference. However, the parallel computation increases the difficulty
while learning the alignment between text and speech in Transformer, which is
further magnified in the multi-speaker scenario with noisy data and diverse
speakers, and hinders the applicability of Transformer for multi-speaker TTS.
In this paper, we develop a robust and high-quality multi-speaker Transformer
TTS system called MultiSpeech, with several specially designed
components/techniques to improve text-to-speech alignment: 1) a diagonal
constraint on the weight matrix of encoder-decoder attention in both training
and inference; 2) layer normalization on phoneme embedding in encoder to better
preserve position information; 3) a bottleneck in decoder pre-net to prevent
copy between consecutive speech frames. Experiments on VCTK and LibriTTS
multi-speaker datasets demonstrate the effectiveness of MultiSpeech: 1) it
synthesizes more robust and better quality multi-speaker voice than naive
Transformer based TTS; 2) with a MutiSpeech model as the teacher, we obtain a
strong multi-speaker FastSpeech model with almost zero quality degradation
while enjoying extremely fast inference speed.
- Abstract(参考訳): Transformer-based text to speech (TTS) model (例: Transformer TTS~\cite{li2019neural}, FastSpeech~\cite{ren2019fastspeech}) は、トレーニングと推論における並列計算により、RNNベースのモデル(例: Tacotron~\cite{shen2018natural})よりもトレーニングと推論効率の利点を示した。
しかし、並列計算はトランスフォーマのテキストと音声のアライメントを学習しながら難易度を増大させ、ノイズデータと多彩な話者によるマルチスピーカーシナリオではさらに拡大され、マルチスピーカーttsにおけるトランスフォーマの適用性が阻害される。
本稿では,テキストから音声へのアライメントを改善するためのコンポーネント/技術をいくつか備えた,ロバストで高品質なマルチスピーカートランスフォーマーttsシステムであるmultispeechを開発した。
1) 訓練及び推論において,エンコーダ・デコーダ注意の重量行列上の対角的制約
2) 位置情報をよりよく保存するためにエンコーダに埋め込まれた音素の正規化
3) 連続音声フレーム間のコピーを防止するデコーダプリネットのボトルネック。
VCTKおよびLibriTTSマルチ話者データセットの実験は、MultiSpeechの有効性を実証している。
1) ナイーブトランスフォーマーベースのTSよりも頑健で高品質なマルチスピーカ音声を合成する。
2) 教師としてのMutiSpeechモデルを用いて, 非常に高速な推論速度を保ちながら, ほぼ品質劣化の強いマルチスピーカFastSpeechモデルを得る。
関連論文リスト
- Multi-modal Adversarial Training for Zero-Shot Voice Cloning [9.823246184635103]
実音声特徴と生成音声特徴を条件付きで識別するトランスフォーマーエンコーダデコーダアーキテクチャを提案する。
我々は、FastSpeech2音響モデルに適用し、大規模マルチスピーカーデータセットであるLibriheavyのトレーニングを行うことにより、新しい対角訓練手法を導入する。
本モデルは,音声品質と話者類似度の観点から,ベースラインに対する改善を実現する。
論文 参考訳(メタデータ) (2024-08-28T16:30:41Z) - A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Speech Translation [48.84039953531355]
同時音声翻訳のための新しい非自己回帰生成フレームワーク(NAST-S2X)を提案する。
NAST-S2Xは、音声テキストと音声音声タスクを統合エンドツーエンドフレームワークに統合する。
3秒未満の遅延で高品質な同時解釈を実現し、オフライン生成において28倍のデコードスピードアップを提供する。
論文 参考訳(メタデータ) (2024-06-11T04:25:48Z) - Generative Pre-trained Speech Language Model with Efficient Hierarchical Transformer [39.31849739010572]
textbfGenerative textbfPre-trained textbfSpeech textbfTransformer (GPST)を紹介する。
GPSTは効率的な音声言語モデリングのために設計された階層変換器である。
論文 参考訳(メタデータ) (2024-06-03T04:16:30Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - VCVTS: Multi-speaker Video-to-Speech synthesis via cross-modal knowledge
transfer from voice conversion [77.50171525265056]
本稿では,音声変換(VC)からのクロスモーダルな知識伝達に基づく,VTS(Multi-Speaker Video-to-Speech)システムを提案する。
Lip2Indネットワークは、VCのコンテンツエンコーダを交換してマルチスピーカVTSシステムを形成し、サイレントビデオを音響ユニットに変換して正確な音声コンテンツを再構成する。
論文 参考訳(メタデータ) (2022-02-18T08:58:45Z) - AdaSpeech 2: Adaptive Text to Speech with Untranscribed Data [115.38309338462588]
AdaSpeech 2 は、未転写音声データのみを適応に利用する適応型 TTS システムである。
具体的には,よく訓練されたttsモデルにmel-spectrogramエンコーダを導入し,音声再構成を行う。
適応では,ttsデコーダのみを微調整し,未書き起こし音声データを用いて音声再構成を行う。
論文 参考訳(メタデータ) (2021-04-20T01:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。