論文の概要: End-to-End Text-to-Speech using Latent Duration based on VQ-VAE
- arxiv url: http://arxiv.org/abs/2010.09602v2
- Date: Tue, 20 Oct 2020 13:46:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 22:52:44.607437
- Title: End-to-End Text-to-Speech using Latent Duration based on VQ-VAE
- Title(参考訳): VQ-VAEに基づく遅延時間を用いたエンドツーエンドテキスト音声合成
- Authors: Yusuke Yasuda, Xin Wang, Junichi Yamagishi
- Abstract要約: テキスト音声合成(TTS)におけるロバストかつ効率的なアライメントの実現の鍵となる明示的持続時間モデリング
本稿では,時間長をTSの離散潜在変数として組み込んだ明示的持続時間モデルを用いた新しいTSフレームワークを提案する。
- 参考スコア(独自算出の注目度): 48.151894340550385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Explicit duration modeling is a key to achieving robust and efficient
alignment in text-to-speech synthesis (TTS). We propose a new TTS framework
using explicit duration modeling that incorporates duration as a discrete
latent variable to TTS and enables joint optimization of whole modules from
scratch. We formulate our method based on conditional VQ-VAE to handle discrete
duration in a variational autoencoder and provide a theoretical explanation to
justify our method. In our framework, a connectionist temporal classification
(CTC) -based force aligner acts as the approximate posterior, and
text-to-duration works as the prior in the variational autoencoder. We
evaluated our proposed method with a listening test and compared it with other
TTS methods based on soft-attention or explicit duration modeling. The results
showed that our systems rated between soft-attention-based methods
(Transformer-TTS, Tacotron2) and explicit duration modeling-based methods
(Fastspeech).
- Abstract(参考訳): テキスト音声合成(TTS)において、単語の持続時間モデリングは、堅牢で効率的なアライメントを実現するための鍵となる。
本稿では,TS に対する離散潜在変数として持続時間を組み込んだ明示的持続時間モデルを用いた新しい TTS フレームワークを提案する。
我々は条件付きVQ-VAEに基づいて,変分オートエンコーダの離散時間を扱う手法を定式化し,提案手法を正当化するための理論的説明を提供する。
本手法では,コネクショニスト時相分類(ctc)に基づく力調整器が近似後段として作用し,変分オートエンコーダではテキスト対デュレーションが前段として機能する。
提案手法をリスニングテストで評価し,ソフトアテンションや明示的持続時間モデルに基づく他のTS法と比較した。
その結果, ソフトアテンションに基づく手法 (Transformer-TTS, Tacotron2) と明示的持続時間モデルに基づく手法 (Fastspeech) の2つが評価された。
関連論文リスト
- VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - DiTTo-TTS: Efficient and Scalable Zero-Shot Text-to-Speech with Diffusion Transformer [9.032701216955497]
市販の事前学習テキストと音声エンコーダを利用した効率よくスケーラブルな拡散変換器(DiT)を提案する。
提案手法は, 音声表現の総長の予測により, テキスト・音声アライメントの課題に対処する。
トレーニングデータセットとモデルサイズはそれぞれ82K時間と790Mパラメータにスケールします。
論文 参考訳(メタデータ) (2024-06-17T11:25:57Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - Unsupervised TTS Acoustic Modeling for TTS with Conditional Disentangled Sequential VAE [36.50265124324876]
本稿では,テキストと音声のペアを必要としない,教師なしの音声合成モデルであるUTTSを提案する。
このフレームワークは、話者の持続時間モデル、音色特徴(アイデンティティ)、TTS推論のための内容の柔軟な選択を提供する。
実験により、UTTSは人間と客観的評価によって測定された高い自然性と知性のある音声を合成できることが示されている。
論文 参考訳(メタデータ) (2022-06-06T11:51:22Z) - Differentiable Duration Modeling for End-to-End Text-to-Speech [6.571447892202893]
並列テキスト音声合成(TTS)モデルは,最近,高速で自然な音声合成を実現している。
本稿では,入力と出力のモノトニックシーケンスを学習するための可変長法を提案する。
本モデルでは,高忠実度合成を,対向学習と全地下構造時間との整合性の組み合わせにより学習する。
論文 参考訳(メタデータ) (2022-03-21T15:14:44Z) - With a Little Help from my Temporal Context: Multimodal Egocentric
Action Recognition [95.99542238790038]
認識性能を向上させるため,周辺行動への参加を学習する手法を提案する。
時間的文脈を組み込むために,ビデオや音声を入力モダリティとして取り込み,変換器をベースとしたマルチモーダルモデルを提案する。
我々は,EPIC-KITCHENSとEGTEAデータセットを用いて,最先端の性能を報告する。
論文 参考訳(メタデータ) (2021-11-01T15:27:35Z) - Low-Latency Incremental Text-to-Speech Synthesis with Distilled Context
Prediction Network [41.4599368523939]
軽量モデルを用いて、観測されていない将来の文脈を直接予測するインクリメンタルTS法を提案する。
実験結果から,提案手法は合成音声の質に匹敵する10倍の時間を要することがわかった。
論文 参考訳(メタデータ) (2021-09-22T13:29:10Z) - STYLER: Style Modeling with Rapidity and Robustness via
SpeechDecomposition for Expressive and Controllable Neural Text to Speech [2.622482339911829]
STYLERは並列化アーキテクチャを持つ新しい表現型テキスト音声合成モデルである。
提案手法は, 雑音を伝達することなく, ドメイン逆学習と残余復号化を併用した音声からのノイズモデリング手法である。
論文 参考訳(メタデータ) (2021-03-17T07:11:09Z) - Boosting Continuous Sign Language Recognition via Cross Modality
Augmentation [135.30357113518127]
連続手話認識は不整合のビデオテキストペアを扱う。
クロスモーダル拡張を用いた新しいアーキテクチャを提案する。
提案するフレームワークは、既存のCTCベースの連続SLRアーキテクチャに容易に拡張できる。
論文 参考訳(メタデータ) (2020-10-11T15:07:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。