論文の概要: Flowtron: an Autoregressive Flow-based Generative Network for
Text-to-Speech Synthesis
- arxiv url: http://arxiv.org/abs/2005.05957v3
- Date: Thu, 16 Jul 2020 15:10:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 18:32:55.228695
- Title: Flowtron: an Autoregressive Flow-based Generative Network for
Text-to-Speech Synthesis
- Title(参考訳): Flowtron: テキスト音声合成のための自己回帰型フローベース生成ネットワーク
- Authors: Rafael Valle, Kevin Shih, Ryan Prenger, Bryan Catanzaro
- Abstract要約: Flowtronは、音声合成のための自己回帰型フローベース生成ネットワークである。
学習中の音声の変動, サンプル間, 聴取者間のスタイル伝達の制御について検討した。
- 参考スコア(独自算出の注目度): 23.115879727598262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we propose Flowtron: an autoregressive flow-based generative
network for text-to-speech synthesis with control over speech variation and
style transfer. Flowtron borrows insights from IAF and revamps Tacotron in
order to provide high-quality and expressive mel-spectrogram synthesis.
Flowtron is optimized by maximizing the likelihood of the training data, which
makes training simple and stable. Flowtron learns an invertible mapping of data
to a latent space that can be manipulated to control many aspects of speech
synthesis (pitch, tone, speech rate, cadence, accent). Our mean opinion scores
(MOS) show that Flowtron matches state-of-the-art TTS models in terms of speech
quality. In addition, we provide results on control of speech variation,
interpolation between samples and style transfer between speakers seen and
unseen during training. Code and pre-trained models will be made publicly
available at https://github.com/NVIDIA/flowtron
- Abstract(参考訳): 本稿では,音声の変動とスタイル伝達を制御した音声合成のための自動回帰フローベース生成ネットワークFlowtronを提案する。
FlowtronはIAFから洞察を借り、高品質で表現力のあるメル-スペクトログラム合成を提供するためにTacotronを改良した。
flowtronはトレーニングデータの可能性を最大化することで最適化され、トレーニングがシンプルで安定したものになる。
Flowtronは、音声合成のさまざまな側面(ピッチ、トーン、発話速度、ケイデンス、アクセント)を制御するために操作できる、潜在空間へのデータの可逆マッピングを学習する。
我々の平均世論スコア (MOS) は, Flowtron が現在最先端の TTS モデルと音声品質の点で一致していることを示している。
また,音声のばらつき,サンプル間の補間,訓練中の話者間のスタイル伝達の制御に関する結果を提供する。
コードおよび事前トレーニングされたモデルはhttps://github.com/NVIDIA/flowtronで公開される。
関連論文リスト
- CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models [74.80386066714229]
改良されたストリーミング音声合成モデルCosyVoice 2を提案する。
具体的には,音声トークンのコードブック利用を改善するために,有限スカラー量子化を導入する。
我々は,様々な合成シナリオをサポートするために,チャンク対応因果フローマッチングモデルを開発した。
論文 参考訳(メタデータ) (2024-12-13T12:59:39Z) - V2SFlow: Video-to-Speech Generation with Speech Decomposition and Rectified Flow [57.51550409392103]
本稿では,V2SFlowについて紹介する。V2SFlowは,サイレント・トーキング・フェイス・ビデオから直接自然で分かりやすい音声を生成するために設計された,新しいビデオ音声合成(V2S)フレームワークである。
これらの課題に対処するため、音声信号を管理可能な部分空間に分解し、それぞれ異なる音声属性を表現し、視覚入力から直接予測する。
これらの予測属性からコヒーレントでリアルな音声を生成するために,Transformerアーキテクチャ上に構築された正流整合デコーダを用いる。
論文 参考訳(メタデータ) (2024-11-29T05:55:20Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - Predicting phoneme-level prosody latents using AR and flow-based Prior
Networks for expressive speech synthesis [3.6159128762538018]
フローに基づく事前ネットワークの正規化は,品質の低下を犠牲にして,より表現力の高い音声が得られることを示す。
また,フローベースモデルと比較して表現性や変動性は低いものの,高品質な音声を生成できる動的VAEモデルを提案する。
論文 参考訳(メタデータ) (2022-11-02T17:45:01Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - JETS: Jointly Training FastSpeech2 and HiFi-GAN for End to End Text to
Speech [7.476901945542385]
本稿では、簡易な訓練パイプラインを持ち、個別に学習したモデルのカスケードを上回り、エンドツーエンドのテキスト音声合成(E2E-TTS)モデルを提案する。
提案モデルでは,アライメントモジュールを用いたFastSpeech2とHiFi-GANを併用する。
LJSpeechコーパスの実験では、提案されたモデルはESPNet2-TTSの最先端実装よりも優れていた。
論文 参考訳(メタデータ) (2022-03-31T07:25:11Z) - GANtron: Emotional Speech Synthesis with Generative Adversarial Networks [0.0]
提案するテキスト音声合成モデルでは,推定音声を所望の感情で調整することができる。
我々は,GAN(Generative Adversarial Networks)とアテンション機構を用いたシーケンス・ツー・シーケンス・モデルを用いた。
論文 参考訳(メタデータ) (2021-10-06T10:44:30Z) - Wave-Tacotron: Spectrogram-free end-to-end text-to-speech synthesis [25.234945748885348]
本稿では,テキスト入力から直接音声波形を生成するシーケンス・ツー・シーケンスニューラルネットワークについて述べる。
アーキテクチャは、自己回帰デコーダループに正規化フローを組み込むことで、タコトロンモデルを拡張する。
実験により,提案モデルが最先端のニューラルTSシステムに近づく品質の音声を生成することが示された。
論文 参考訳(メタデータ) (2020-11-06T19:30:07Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - Relative Positional Encoding for Speech Recognition and Direct
Translation [72.64499573561922]
相対位置符号化方式を音声変換器に適用する。
その結果,ネットワークは音声データに存在する変動分布に適応できることがわかった。
論文 参考訳(メタデータ) (2020-05-20T09:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。