論文の概要: MultiSpeech: Multi-Speaker Text to Speech with Transformer
- arxiv url: http://arxiv.org/abs/2006.04664v2
- Date: Sat, 1 Aug 2020 03:45:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 01:17:12.857756
- Title: MultiSpeech: Multi-Speaker Text to Speech with Transformer
- Title(参考訳): MultiSpeech: トランスフォーマーを用いた多話者音声テキスト
- Authors: Mingjian Chen, Xu Tan, Yi Ren, Jin Xu, Hao Sun, Sheng Zhao, Tao Qin,
Tie-Yan Liu
- Abstract要約: Transformer-based text to speech (TTS)モデル(Transformer TTSciteli 2019neural, FastSpeechciteren 2019fastspeech)は、RNNベースのモデルよりもトレーニングと推論効率の利点を示している。
我々はMultiSpeechと呼ばれる堅牢で高品質なマルチスピーカトランスフォーマーTSシステムを開発した。
- 参考スコア(独自算出の注目度): 145.56725956639232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based text to speech (TTS) model (e.g., Transformer
TTS~\cite{li2019neural}, FastSpeech~\cite{ren2019fastspeech}) has shown the
advantages of training and inference efficiency over RNN-based model (e.g.,
Tacotron~\cite{shen2018natural}) due to its parallel computation in training
and/or inference. However, the parallel computation increases the difficulty
while learning the alignment between text and speech in Transformer, which is
further magnified in the multi-speaker scenario with noisy data and diverse
speakers, and hinders the applicability of Transformer for multi-speaker TTS.
In this paper, we develop a robust and high-quality multi-speaker Transformer
TTS system called MultiSpeech, with several specially designed
components/techniques to improve text-to-speech alignment: 1) a diagonal
constraint on the weight matrix of encoder-decoder attention in both training
and inference; 2) layer normalization on phoneme embedding in encoder to better
preserve position information; 3) a bottleneck in decoder pre-net to prevent
copy between consecutive speech frames. Experiments on VCTK and LibriTTS
multi-speaker datasets demonstrate the effectiveness of MultiSpeech: 1) it
synthesizes more robust and better quality multi-speaker voice than naive
Transformer based TTS; 2) with a MutiSpeech model as the teacher, we obtain a
strong multi-speaker FastSpeech model with almost zero quality degradation
while enjoying extremely fast inference speed.
- Abstract(参考訳): Transformer-based text to speech (TTS) model (例: Transformer TTS~\cite{li2019neural}, FastSpeech~\cite{ren2019fastspeech}) は、トレーニングと推論における並列計算により、RNNベースのモデル(例: Tacotron~\cite{shen2018natural})よりもトレーニングと推論効率の利点を示した。
しかし、並列計算はトランスフォーマのテキストと音声のアライメントを学習しながら難易度を増大させ、ノイズデータと多彩な話者によるマルチスピーカーシナリオではさらに拡大され、マルチスピーカーttsにおけるトランスフォーマの適用性が阻害される。
本稿では,テキストから音声へのアライメントを改善するためのコンポーネント/技術をいくつか備えた,ロバストで高品質なマルチスピーカートランスフォーマーttsシステムであるmultispeechを開発した。
1) 訓練及び推論において,エンコーダ・デコーダ注意の重量行列上の対角的制約
2) 位置情報をよりよく保存するためにエンコーダに埋め込まれた音素の正規化
3) 連続音声フレーム間のコピーを防止するデコーダプリネットのボトルネック。
VCTKおよびLibriTTSマルチ話者データセットの実験は、MultiSpeechの有効性を実証している。
1) ナイーブトランスフォーマーベースのTSよりも頑健で高品質なマルチスピーカ音声を合成する。
2) 教師としてのMutiSpeechモデルを用いて, 非常に高速な推論速度を保ちながら, ほぼ品質劣化の強いマルチスピーカFastSpeechモデルを得る。
関連論文リスト
- Cascaded Cross-Modal Transformer for Audio-Textual Classification [34.44050516445273]
本稿では,自動音声認識(ASR)モデルを用いた音声の書き起こしにより,マルチモーダル表現の固有値を活用することを提案する。
これにより、各データサンプルに対する音声テキスト(マルチモーダル)表現が得られる。
我々は、ACM Multimedia 2023 Computational Paralinguistics Challenge の Requests Sub-Challenge において、勝利のソリューションであると宣言された。
論文 参考訳(メタデータ) (2024-01-15T10:18:08Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Simulating realistic speech overlaps improves multi-talker ASR [36.39193360559079]
本稿では,複数話者の重なり合う音声を現実的な音声重なりでシミュレートする改良手法を提案する。
この表現により、N-gramのような統計言語モデルに基づいて、実際の会話から重なり合う音声パターンを学習することができる。
実験では,提案手法を用いて学習したマルチストーカーASRモデルを用いて,複数データセット間の単語誤り率を一貫した改善を行った。
論文 参考訳(メタデータ) (2022-10-27T18:29:39Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - VCVTS: Multi-speaker Video-to-Speech synthesis via cross-modal knowledge
transfer from voice conversion [77.50171525265056]
本稿では,音声変換(VC)からのクロスモーダルな知識伝達に基づく,VTS(Multi-Speaker Video-to-Speech)システムを提案する。
Lip2Indネットワークは、VCのコンテンツエンコーダを交換してマルチスピーカVTSシステムを形成し、サイレントビデオを音響ユニットに変換して正確な音声コンテンツを再構成する。
論文 参考訳(メタデータ) (2022-02-18T08:58:45Z) - AdaSpeech 2: Adaptive Text to Speech with Untranscribed Data [115.38309338462588]
AdaSpeech 2 は、未転写音声データのみを適応に利用する適応型 TTS システムである。
具体的には,よく訓練されたttsモデルにmel-spectrogramエンコーダを導入し,音声再構成を行う。
適応では,ttsデコーダのみを微調整し,未書き起こし音声データを用いて音声再構成を行う。
論文 参考訳(メタデータ) (2021-04-20T01:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。