Fugu-MT 論文翻訳(概要): MultiSpeech: Multi-Speaker Text to Speech with Transformer

論文の概要: MultiSpeech: Multi-Speaker Text to Speech with Transformer

arxiv url: http://arxiv.org/abs/2006.04664v2
Date: Sat, 1 Aug 2020 03:45:03 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-24 01:17:12.857756
Title: MultiSpeech: Multi-Speaker Text to Speech with Transformer
Title（参考訳）: MultiSpeech: トランスフォーマーを用いた多話者音声テキスト
Authors: Mingjian Chen, Xu Tan, Yi Ren, Jin Xu, Hao Sun, Sheng Zhao, Tao Qin, Tie-Yan Liu
Abstract要約: Transformer-based text to speech (TTS)モデル(Transformer TTSciteli 2019neural, FastSpeechciteren 2019fastspeech)は、RNNベースのモデルよりもトレーニングと推論効率の利点を示している。我々はMultiSpeechと呼ばれる堅牢で高品質なマルチスピーカトランスフォーマーTSシステムを開発した。
参考スコア（独自算出の注目度）: 145.56725956639232
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformer-based text to speech (TTS) model (e.g., Transformer TTS~\cite{li2019neural}, FastSpeech~\cite{ren2019fastspeech}) has shown the advantages of training and inference efficiency over RNN-based model (e.g., Tacotron~\cite{shen2018natural}) due to its parallel computation in training and/or inference. However, the parallel computation increases the difficulty while learning the alignment between text and speech in Transformer, which is further magnified in the multi-speaker scenario with noisy data and diverse speakers, and hinders the applicability of Transformer for multi-speaker TTS. In this paper, we develop a robust and high-quality multi-speaker Transformer TTS system called MultiSpeech, with several specially designed components/techniques to improve text-to-speech alignment: 1) a diagonal constraint on the weight matrix of encoder-decoder attention in both training and inference; 2) layer normalization on phoneme embedding in encoder to better preserve position information; 3) a bottleneck in decoder pre-net to prevent copy between consecutive speech frames. Experiments on VCTK and LibriTTS multi-speaker datasets demonstrate the effectiveness of MultiSpeech: 1) it synthesizes more robust and better quality multi-speaker voice than naive Transformer based TTS; 2) with a MutiSpeech model as the teacher, we obtain a strong multi-speaker FastSpeech model with almost zero quality degradation while enjoying extremely fast inference speed.
Abstract（参考訳）: Transformer-based text to speech (TTS) model (例: Transformer TTS~\cite{li2019neural}, FastSpeech~\cite{ren2019fastspeech}) は、トレーニングと推論における並列計算により、RNNベースのモデル(例: Tacotron~\cite{shen2018natural})よりもトレーニングと推論効率の利点を示した。しかし、並列計算はトランスフォーマのテキストと音声のアライメントを学習しながら難易度を増大させ、ノイズデータと多彩な話者によるマルチスピーカーシナリオではさらに拡大され、マルチスピーカーttsにおけるトランスフォーマの適用性が阻害される。本稿では,テキストから音声へのアライメントを改善するためのコンポーネント/技術をいくつか備えた,ロバストで高品質なマルチスピーカートランスフォーマーttsシステムであるmultispeechを開発した。 1) 訓練及び推論において,エンコーダ・デコーダ注意の重量行列上の対角的制約 2) 位置情報をよりよく保存するためにエンコーダに埋め込まれた音素の正規化 3) 連続音声フレーム間のコピーを防止するデコーダプリネットのボトルネック。 VCTKおよびLibriTTSマルチ話者データセットの実験は、MultiSpeechの有効性を実証している。 1) ナイーブトランスフォーマーベースのTSよりも頑健で高品質なマルチスピーカ音声を合成する。 2) 教師としてのMutiSpeechモデルを用いて, 非常に高速な推論速度を保ちながら, ほぼ品質劣化の強いマルチスピーカFastSpeechモデルを得る。

関連論文リスト

SyncSpeech: Low-Latency and Efficient Dual-Stream Text-to-Speech based on Temporal Masked Transformer [68.78023656892319]
本稿では、ストリーミング音声を同時に生成しながら、上流モデルからストリーミングテキスト入力を受信できる、双方向ストリームテキスト音声(TTS)モデルSyncSpeechを提案する。 SyncSpeechには次のような利点がある: 低レイテンシ、第2のテキストトークンの受信時にストリーミング音声を生成し始めるとき、高効率、そして、受信したテキストトークンに対応するすべての音声トークンを1ステップでデコードするとき、。
論文参考訳（メタデータ） (2025-02-16T12:14:17Z)
TTS-Transducer: End-to-End Speech Synthesis with Neural Transducer [6.1319363847980135]
TTS-Transducerは、音声モデルとニューラルトランスデューサの強みを活用する、テキストから音声への新たなアーキテクチャである。 TTS-Transducerは,現代のTSシステムに代わる,競争力があり堅牢な代替手段であることを示す。
論文参考訳（メタデータ） (2025-01-10T19:50:32Z)
Multi-modal Adversarial Training for Zero-Shot Voice Cloning [9.823246184635103]
実音声特徴と生成音声特徴を条件付きで識別するトランスフォーマーエンコーダデコーダアーキテクチャを提案する。我々は、FastSpeech2音響モデルに適用し、大規模マルチスピーカーデータセットであるLibriheavyのトレーニングを行うことにより、新しい対角訓練手法を導入する。本モデルは,音声品質と話者類似度の観点から,ベースラインに対する改善を実現する。
論文参考訳（メタデータ） (2024-08-28T16:30:41Z)
A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Speech Translation [48.84039953531355]
同時音声翻訳のための新しい非自己回帰生成フレームワーク(NAST-S2X)を提案する。 NAST-S2Xは、音声テキストと音声音声タスクを統合エンドツーエンドフレームワークに統合する。 3秒未満の遅延で高品質な同時解釈を実現し、オフライン生成において28倍のデコードスピードアップを提供する。
論文参考訳（メタデータ） (2024-06-11T04:25:48Z)
Generative Pre-trained Speech Language Model with Efficient Hierarchical Transformer [39.31849739010572]
textbfGenerative textbfPre-trained textbfSpeech textbfTransformer (GPST)を紹介する。 GPSTは効率的な音声言語モデリングのために設計された階層変換器である。
論文参考訳（メタデータ） (2024-06-03T04:16:30Z)
NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。 NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文参考訳（メタデータ） (2023-04-18T16:31:59Z)
ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文参考訳（メタデータ） (2022-11-07T13:35:16Z)
VCVTS: Multi-speaker Video-to-Speech synthesis via cross-modal knowledge transfer from voice conversion [77.50171525265056]
本稿では,音声変換(VC)からのクロスモーダルな知識伝達に基づく,VTS(Multi-Speaker Video-to-Speech)システムを提案する。 Lip2Indネットワークは、VCのコンテンツエンコーダを交換してマルチスピーカVTSシステムを形成し、サイレントビデオを音響ユニットに変換して正確な音声コンテンツを再構成する。
論文参考訳（メタデータ） (2022-02-18T08:58:45Z)
AdaSpeech 2: Adaptive Text to Speech with Untranscribed Data [115.38309338462588]
AdaSpeech 2 は、未転写音声データのみを適応に利用する適応型 TTS システムである。具体的には,よく訓練されたttsモデルにmel-spectrogramエンコーダを導入し,音声再構成を行う。適応では,ttsデコーダのみを微調整し,未書き起こし音声データを用いて音声再構成を行う。
論文参考訳（メタデータ） (2021-04-20T01:53:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。