論文の概要: E3 TTS: Easy End-to-End Diffusion-based Text to Speech
- arxiv url: http://arxiv.org/abs/2311.00945v1
- Date: Thu, 2 Nov 2023 02:22:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 15:03:27.335055
- Title: E3 TTS: Easy End-to-End Diffusion-based Text to Speech
- Title(参考訳): E3 TTS: エンドツーエンドの拡散に基づく音声テキスト
- Authors: Yuan Gao, Nobuyuki Morioka, Yu Zhang, Nanxin Chen
- Abstract要約: E3 TTSは、プレーンテキストを直接入力として取り出し、反復精製プロセスを通じて音声波形を生成する。
E3 TTSは、最先端のニューラルTSシステムの性能に近づき、高忠実なオーディオを生成することができる。
- 参考スコア(独自算出の注目度): 18.013462246402323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Easy End-to-End Diffusion-based Text to Speech, a simple and
efficient end-to-end text-to-speech model based on diffusion. E3 TTS directly
takes plain text as input and generates an audio waveform through an iterative
refinement process. Unlike many prior work, E3 TTS does not rely on any
intermediate representations like spectrogram features or alignment
information. Instead, E3 TTS models the temporal structure of the waveform
through the diffusion process. Without relying on additional conditioning
information, E3 TTS could support flexible latent structure within the given
audio. This enables E3 TTS to be easily adapted for zero-shot tasks such as
editing without any additional training. Experiments show that E3 TTS can
generate high-fidelity audio, approaching the performance of a state-of-the-art
neural TTS system. Audio samples are available at https://e3tts.github.io.
- Abstract(参考訳): 本稿では,拡散に基づく簡易かつ効率的なエンドツーエンド・テキスト・ツー・スパイチモデルである音声へのエンドツーエンド・拡散ベーステキストを提案する。
E3 TTSは、プレーンテキストを直接入力として取り出し、反復精製プロセスを通じて音声波形を生成する。
以前の多くの作業とは異なり、E3 TTSは分光器の特徴やアライメント情報のような中間表現に依存していない。
代わりにe3 ttsは拡散過程を通じて波形の時間構造をモデル化する。
追加の条件情報に頼ることなく、E3 TTSは所定のオーディオ内で柔軟な潜在構造をサポートすることができる。
これにより、E3 TTSは追加のトレーニングなしで編集などのゼロショットタスクに容易に適応できる。
実験により、E3 TTSは高忠実なオーディオを生成し、最先端のニューラルTSシステムの性能に近づいた。
オーディオサンプルはhttps://e3tts.github.ioで入手できる。
関連論文リスト
- Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition [72.22243595269389]
本稿では,テキストやビデオの入力に基づく音声生成,編集,合成のためのフレームワークであるAudio-Agentを紹介する。
提案手法では,事前学習したTTA拡散ネットワークを音声生成エージェントとして利用し,GPT-4でタンデムで動作させる。
VTA(Video-to-audio)タスクでは、既存のほとんどのメソッドは、生成されたオーディオとビデオイベントを同期させるタイムスタンプ検出器のトレーニングを必要とする。
論文 参考訳(メタデータ) (2024-10-04T11:40:53Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - Unsupervised TTS Acoustic Modeling for TTS with Conditional Disentangled Sequential VAE [36.50265124324876]
本稿では,テキストと音声のペアを必要としない,教師なしの音声合成モデルであるUTTSを提案する。
このフレームワークは、話者の持続時間モデル、音色特徴(アイデンティティ)、TTS推論のための内容の柔軟な選択を提供する。
実験により、UTTSは人間と客観的評価によって測定された高い自然性と知性のある音声を合成できることが示されている。
論文 参考訳(メタデータ) (2022-06-06T11:51:22Z) - Nix-TTS: An Incredibly Lightweight End-to-End Text-to-Speech Model via
Non End-to-End Distillation [4.995698126365142]
我々は,軽量なニューラルTS(Text-to-Speech)モデルであるNix-TTSを提案する。
我々は、知識蒸留を、強力ながら大規模なTTS教師モデルに適用する。
Nix-TTSはエンド・ツー・エンド(ヴォコーダフリー)で、5.23Mのパラメータしか持たない。
論文 参考訳(メタデータ) (2022-03-29T15:04:26Z) - Voice Filter: Few-shot text-to-speech speaker adaptation using voice
conversion as a post-processing module [16.369219400819134]
最先端の音声合成システム(TTS)は、高品質な合成音声を生成するために、数時間の音声データを記録する必要がある。
トレーニングデータの量を減らす場合、標準のTSモデルは音声品質と知性劣化に悩まされる。
本稿では,ターゲット話者からの音声を1分以内で処理するVoice Filterという,非常に低リソースなTTS手法を提案する。
論文 参考訳(メタデータ) (2022-02-16T16:12:21Z) - AdaSpeech 3: Adaptive Text to Speech for Spontaneous Style [111.89762723159677]
AdaSpeech 3 は,順応性のある TTS システムである。
AdaSpeech 3は自然なFPとリズムを自発的なスタイルで合成し、従来の適応TSシステムよりもずっと優れたMOSとSMOSスコアを達成する。
論文 参考訳(メタデータ) (2021-07-06T10:40:45Z) - AdaSpeech 2: Adaptive Text to Speech with Untranscribed Data [115.38309338462588]
AdaSpeech 2 は、未転写音声データのみを適応に利用する適応型 TTS システムである。
具体的には,よく訓練されたttsモデルにmel-spectrogramエンコーダを導入し,音声再構成を行う。
適応では,ttsデコーダのみを微調整し,未書き起こし音声データを用いて音声再構成を行う。
論文 参考訳(メタデータ) (2021-04-20T01:53:30Z) - GraphSpeech: Syntax-Aware Graph Attention Network For Neural Speech
Synthesis [79.1885389845874]
Transformer-based end-to-end text-to-speech synthesis (TTS)は、このような実装の成功例の一つである。
本稿では,グラフニューラルネットワークフレームワークで定式化された新しいニューラルネットワークモデルであるGraphSpeechを提案する。
実験により、GraphSpeechは、発話のスペクトルと韻律レンダリングの点で、Transformer TTSベースラインを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2020-10-23T14:14:06Z) - "Listen, Understand and Translate": Triple Supervision Decouples
End-to-end Speech-to-text Translation [49.610188741500274]
エンドツーエンドの音声テキスト翻訳(ST)は、ソース言語で音声を取り、ターゲット言語でテキストを出力する。
既存の方法は並列コーパスの量によって制限される。
並列STコーパスで信号を完全に活用するシステムを構築した。
論文 参考訳(メタデータ) (2020-09-21T09:19:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。