論文の概要: One TTS Alignment To Rule Them All
- arxiv url: http://arxiv.org/abs/2108.10447v1
- Date: Mon, 23 Aug 2021 23:45:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-25 14:24:50.878131
- Title: One TTS Alignment To Rule Them All
- Title(参考訳): 1つのTSアライメントがすべてを支配する
- Authors: Rohan Badlani, Adrian {\L}ancucki, Kevin J. Shih, Rafael Valle, Wei
Ping, Bryan Catanzaro
- Abstract要約: 音声テキストアライメントは、ニューラルテキスト音声(TTS)モデルの重要な構成要素である。
本稿では,RAD-TTSにおけるアライメント機構を汎用的なアライメント学習フレームワークとして活用する。
このフレームワークは、フォワードサムアルゴリズム、ビタビアルゴリズム、単純で効率的な静的先行処理を組み合わせたものである。
- 参考スコア(独自算出の注目度): 26.355019468082247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech-to-text alignment is a critical component of neural textto-speech
(TTS) models. Autoregressive TTS models typically use an attention mechanism to
learn these alignments on-line. However, these alignments tend to be brittle
and often fail to generalize to long utterances and out-of-domain text, leading
to missing or repeating words. Most non-autoregressive endto-end TTS models
rely on durations extracted from external sources. In this paper we leverage
the alignment mechanism proposed in RAD-TTS as a generic alignment learning
framework, easily applicable to a variety of neural TTS models. The framework
combines forward-sum algorithm, the Viterbi algorithm, and a simple and
efficient static prior. In our experiments, the alignment learning framework
improves all tested TTS architectures, both autoregressive (Flowtron, Tacotron
2) and non-autoregressive (FastPitch, FastSpeech 2, RAD-TTS). Specifically, it
improves alignment convergence speed of existing attention-based mechanisms,
simplifies the training pipeline, and makes the models more robust to errors on
long utterances. Most importantly, the framework improves the perceived speech
synthesis quality, as judged by human evaluators.
- Abstract(参考訳): 音声テキストアライメントは、ニューラルテキスト音声(TTS)モデルの重要な構成要素である。
自動回帰TSモデルは通常、これらのアライメントをオンラインに学習するために注意機構を使用する。
しかし、これらのアライメントは脆く、長い発話やドメイン外テキストに一般化できないことが多く、単語の欠落や繰り返しにつながる。
ほとんどの非自己回帰的エンドツーエンドTSモデルは、外部ソースから抽出された時間に依存する。
本稿では,RAD-TTSで提案するアライメント機構を汎用的なアライメント学習フレームワークとして活用する。
このフレームワークは、フォワードサムアルゴリズム、ビタビアルゴリズム、およびシンプルで効率的な静的プリミティブを組み合わせる。
我々の実験では、アライメント学習フレームワークは自動回帰(Flowtron, Tacotron2)と非自己回帰(FastPitch, FastSpeech 2, RAD-TTS)の両方でテスト済みのTSアーキテクチャを改善した。
具体的には、既存の注意に基づくメカニズムのアライメント収束速度を改善し、トレーニングパイプラインを単純化し、長い発話のエラーに対してモデルをより堅牢にする。
最も重要なことは、このフレームワークが人間の評価者によって判断されるように、知覚された音声合成品質を改善することである。
関連論文リスト
- EM-TTS: Efficiently Trained Low-Resource Mongolian Lightweight
Text-to-Speech [5.373107723631416]
本稿では,深層畳み込みニューラルネットワークに基づくテキスト音声合成システムを提案する。
私たちのモデルは、Text2SpectrumとSSRNの2つのステージで構成されています。
実験の結果,合成音声の品質と自然性を確保しつつ,学習時間とパラメータを低減できることがわかった。
論文 参考訳(メタデータ) (2024-03-13T01:27:57Z) - Utilizing Neural Transducers for Two-Stage Text-to-Speech via Semantic
Token Prediction [15.72317249204736]
本稿では,ニューラルトランスデューサを中心とした新しいテキスト音声合成(TTS)フレームワークを提案する。
提案手法では,TSパイプライン全体をセマンティックレベルのシーケンス・ツー・シーケンス・モデリング(seq2seq)ときめ細かな音響モデルステージに分割する。
ゼロショット適応型TS実験の結果,音声品質と話者類似度の観点から,モデルがベースラインを超えていることが判明した。
論文 参考訳(メタデータ) (2024-01-03T02:03:36Z) - Transduce and Speak: Neural Transducer for Text-to-Speech with Semantic
Token Prediction [14.661123738628772]
本稿では,ニューラルトランスデューサに基づくテキスト音声合成(TTS)フレームワークを提案する。
We use discretized semantic tokens acquired from wav2vec2.0 embeddeddings, which makes it easy to adopt a neural transducer for the TTS framework enjoy its monotonic alignment constraints。
論文 参考訳(メタデータ) (2023-11-06T06:13:39Z) - Pruning Self-Attention for Zero-Shot Multi-Speaker Text-to-Speech [26.533600745910437]
本稿では,TSモデルの一般化能力を向上させるために,スパースアテンション(sparse attention)と呼ばれる変圧器の効率的なプルーニング法を提案する。
また,モデルがしきい値を自動的に学習することのできる,新しい微分可能なプルーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-28T21:25:05Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale
Text-to-Image Synthesis [54.39789900854696]
StyleGAN-Tは大規模なテキスト・画像合成の要求に対処する。
従来のGANよりも大幅に改善され、サンプルの品質と速度の点で蒸留拡散モデルより優れていた。
論文 参考訳(メタデータ) (2023-01-23T16:05:45Z) - Regotron: Regularizing the Tacotron2 architecture via monotonic
alignment loss [71.30589161727967]
我々は、トレーニング問題を緩和し、同時に単調アライメントを生成することを目的とした、Tacotron2の正規化バージョンであるRegotronを紹介する。
本手法は,バニラTacotron2目的関数を付加項で拡張し,位置感応性注意機構における非単調アライメントをペナル化する。
論文 参考訳(メタデータ) (2022-04-28T12:08:53Z) - Progressively Guide to Attend: An Iterative Alignment Framework for
Temporal Sentence Grounding [53.377028000325424]
時間的文接地作業のための反復アライメントネットワーク(IA-Net)を提案する。
学習可能なパラメータを持つマルチモーダル特徴をパットすることで、非整合フレームワードペアの非整合問題を軽減する。
また、アライメントの知識を洗練させるために、各アライメントモジュールに従ってキャリブレーションモジュールを考案する。
論文 参考訳(メタデータ) (2021-09-14T02:08:23Z) - VARA-TTS: Non-Autoregressive Text-to-Speech Synthesis based on Very Deep
VAE with Residual Attention [28.15932481851868]
本稿では,超深度変分オートエンコーダ(VDVAE)を用いた非自己回帰的(非AR)テキスト音声合成モデルを提案する。
実験結果から,VARA-TTSはARのタコトロン2に比べて音声品質がわずかに劣るが,推定精度は高くなることがわかった。
論文 参考訳(メタデータ) (2021-02-12T10:26:57Z) - GraphSpeech: Syntax-Aware Graph Attention Network For Neural Speech
Synthesis [79.1885389845874]
Transformer-based end-to-end text-to-speech synthesis (TTS)は、このような実装の成功例の一つである。
本稿では,グラフニューラルネットワークフレームワークで定式化された新しいニューラルネットワークモデルであるGraphSpeechを提案する。
実験により、GraphSpeechは、発話のスペクトルと韻律レンダリングの点で、Transformer TTSベースラインを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2020-10-23T14:14:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。