論文の概要: DiscreTalk: Text-to-Speech as a Machine Translation Problem
- arxiv url: http://arxiv.org/abs/2005.05525v1
- Date: Tue, 12 May 2020 02:45:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 19:36:00.909993
- Title: DiscreTalk: Text-to-Speech as a Machine Translation Problem
- Title(参考訳): discretalk:機械翻訳問題としてのtext-to-speech
- Authors: Tomoki Hayashi and Shinji Watanabe
- Abstract要約: 本稿ではニューラルマシン翻訳(NMT)に基づくエンドツーエンドテキスト音声合成(E2E-TTS)モデルを提案する。
提案モデルは,非自己回帰ベクトル量子化変分オートエンコーダ(VQ-VAE)モデルと自己回帰トランスフォーマー-NMTモデルという2つのコンポーネントから構成される。
- 参考スコア(独自算出の注目度): 52.33785857500754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a new end-to-end text-to-speech (E2E-TTS) model based on
neural machine translation (NMT). The proposed model consists of two
components; a non-autoregressive vector quantized variational autoencoder
(VQ-VAE) model and an autoregressive Transformer-NMT model. The VQ-VAE model
learns a mapping function from a speech waveform into a sequence of discrete
symbols, and then the Transformer-NMT model is trained to estimate this
discrete symbol sequence from a given input text. Since the VQ-VAE model can
learn such a mapping in a fully-data-driven manner, we do not need to consider
hyperparameters of the feature extraction required in the conventional E2E-TTS
models. Thanks to the use of discrete symbols, we can use various techniques
developed in NMT and automatic speech recognition (ASR) such as beam search,
subword units, and fusions with a language model. Furthermore, we can avoid an
over smoothing problem of predicted features, which is one of the common issues
in TTS. The experimental evaluation with the JSUT corpus shows that the
proposed method outperforms the conventional Transformer-TTS model with a
non-autoregressive neural vocoder in naturalness, achieving the performance
comparable to the reconstruction of the VQ-VAE model.
- Abstract(参考訳): 本稿では,ニューラルマシン翻訳(NMT)に基づくエンドツーエンドテキスト音声合成(E2E-TTS)モデルを提案する。
提案モデルは,非自己回帰ベクトル量子化変分オートエンコーダ(VQ-VAE)モデルと自己回帰トランスフォーマー-NMTモデルとからなる。
VQ-VAEモデルは、音声波形から離散シンボル列へのマッピング関数を学習し、トランスフォーマー-NMTモデルは、与えられた入力テキストからこの離散シンボル列を推定するように訓練される。
VQ-VAEモデルは、完全データ駆動でそのようなマッピングを学習できるので、従来のE2E-TTSモデルで必要とされる特徴抽出のハイパーパラメータを検討する必要はない。
離散記号を用いることで、NMTで開発された様々な手法と、ビームサーチ、サブワードユニット、言語モデルとの融合などの自動音声認識(ASR)を利用できる。
さらに,ttsの一般的な問題の一つである予測特徴の過剰な平滑化問題を回避することができる。
JSUTコーパスを用いた実験により,提案手法は非自己回帰型ニューラルボコーダを用いた従来のTransformer-TTSモデルよりも自然度が高く,VQ-VAEモデルの再構築に匹敵する性能が得られた。
関連論文リスト
- Utilizing Neural Transducers for Two-Stage Text-to-Speech via Semantic
Token Prediction [15.72317249204736]
本稿では,ニューラルトランスデューサを中心とした新しいテキスト音声合成(TTS)フレームワークを提案する。
提案手法では,TSパイプライン全体をセマンティックレベルのシーケンス・ツー・シーケンス・モデリング(seq2seq)ときめ細かな音響モデルステージに分割する。
ゼロショット適応型TS実験の結果,音声品質と話者類似度の観点から,モデルがベースラインを超えていることが判明した。
論文 参考訳(メタデータ) (2024-01-03T02:03:36Z) - Transduce and Speak: Neural Transducer for Text-to-Speech with Semantic
Token Prediction [14.661123738628772]
本稿では,ニューラルトランスデューサに基づくテキスト音声合成(TTS)フレームワークを提案する。
We use discretized semantic tokens acquired from wav2vec2.0 embeddeddings, which makes it easy to adopt a neural transducer for the TTS framework enjoy its monotonic alignment constraints。
論文 参考訳(メタデータ) (2023-11-06T06:13:39Z) - Structured State Space Decoder for Speech Recognition and Synthesis [9.354721572095272]
構造化状態空間モデル(S4)が最近提案され、様々な時系列モデリングタスクに対して有望な結果が得られた。
本研究では,S4 を ASR およびテキスト音声タスクのデコーダとして適用し,トランスフォーマーデコーダと比較した。
ASR タスクでは,提案モデルが 1.88%/4.25% の競合単語誤り率 (WER) を達成することを示す。
論文 参考訳(メタデータ) (2022-10-31T06:54:23Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Cross-Modal Transformer-Based Neural Correction Models for Automatic
Speech Recognition [31.2558640840697]
自動音声認識システムの出力を改良するクロスモーダルトランスフォーマーに基づくニューラル補正モデルを提案する。
日本語のASR課題に対する実験により,提案したモデルが従来のニューラル補正モデルよりも優れたASR性能を達成できることが実証された。
論文 参考訳(メタデータ) (2021-07-04T07:58:31Z) - Source and Target Bidirectional Knowledge Distillation for End-to-end
Speech Translation [88.78138830698173]
外部テキストベースNMTモデルからのシーケンスレベルの知識蒸留(SeqKD)に注目した。
E2E-STモデルを訓練し、パラフレーズ転写を1つのデコーダで補助タスクとして予測する。
論文 参考訳(メタデータ) (2021-04-13T19:00:51Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - Investigation of learning abilities on linguistic features in
sequence-to-sequence text-to-speech synthesis [48.151894340550385]
ニューラルシークエンス・ツー・シークエンス・テキスト・トゥ・音声合成(TTS)は、テキストや音素のような単純な言語的特徴から直接高品質な音声を生成することができる。
ニューラルシークエンス・ツー・シークエンス TTS が日本語と英語でどのように機能するかを考察する。
論文 参考訳(メタデータ) (2020-05-20T23:26:14Z) - Variational Transformers for Diverse Response Generation [71.53159402053392]
変分変換器(VT)は、変分自己注意フィードフォワードシーケンスモデルである。
VTはトランスフォーマーの並列化性と大域的受容場計算とCVAEの変動特性を組み合わせる。
本稿では,1)大域潜伏変数を用いた談話レベルの多様性のモデル化,2)細粒潜伏変数の列によるトランスフォーマーデコーダの拡張,の2種類のVTについて検討する。
論文 参考訳(メタデータ) (2020-03-28T07:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。