論文の概要: One TTS Alignment To Rule Them All
- arxiv url: http://arxiv.org/abs/2108.10447v1
- Date: Mon, 23 Aug 2021 23:45:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2021-08-25 14:24:50.878131
- Title: One TTS Alignment To Rule Them All
- Title(参考訳): 1つのTSアライメントがすべてを支配する
- Authors: Rohan Badlani, Adrian {\L}ancucki, Kevin J. Shih, Rafael Valle, Wei
Ping, Bryan Catanzaro
- Abstract要約: 音声テキストアライメントは、ニューラルテキスト音声(TTS)モデルの重要な構成要素である。
本稿では,RAD-TTSにおけるアライメント機構を汎用的なアライメント学習フレームワークとして活用する。
このフレームワークは、フォワードサムアルゴリズム、ビタビアルゴリズム、単純で効率的な静的先行処理を組み合わせたものである。
- 参考スコア(独自算出の注目度): 26.355019468082247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech-to-text alignment is a critical component of neural textto-speech
(TTS) models. Autoregressive TTS models typically use an attention mechanism to
learn these alignments on-line. However, these alignments tend to be brittle
and often fail to generalize to long utterances and out-of-domain text, leading
to missing or repeating words. Most non-autoregressive endto-end TTS models
rely on durations extracted from external sources. In this paper we leverage
the alignment mechanism proposed in RAD-TTS as a generic alignment learning
framework, easily applicable to a variety of neural TTS models. The framework
combines forward-sum algorithm, the Viterbi algorithm, and a simple and
efficient static prior. In our experiments, the alignment learning framework
improves all tested TTS architectures, both autoregressive (Flowtron, Tacotron
2) and non-autoregressive (FastPitch, FastSpeech 2, RAD-TTS). Specifically, it
improves alignment convergence speed of existing attention-based mechanisms,
simplifies the training pipeline, and makes the models more robust to errors on
long utterances. Most importantly, the framework improves the perceived speech
synthesis quality, as judged by human evaluators.
- Abstract(参考訳): 音声テキストアライメントは、ニューラルテキスト音声(TTS)モデルの重要な構成要素である。
自動回帰TSモデルは通常、これらのアライメントをオンラインに学習するために注意機構を使用する。
しかし、これらのアライメントは脆く、長い発話やドメイン外テキストに一般化できないことが多く、単語の欠落や繰り返しにつながる。
ほとんどの非自己回帰的エンドツーエンドTSモデルは、外部ソースから抽出された時間に依存する。
本稿では,RAD-TTSで提案するアライメント機構を汎用的なアライメント学習フレームワークとして活用する。
このフレームワークは、フォワードサムアルゴリズム、ビタビアルゴリズム、およびシンプルで効率的な静的プリミティブを組み合わせる。
我々の実験では、アライメント学習フレームワークは自動回帰(Flowtron, Tacotron2)と非自己回帰(FastPitch, FastSpeech 2, RAD-TTS)の両方でテスト済みのTSアーキテクチャを改善した。
具体的には、既存の注意に基づくメカニズムのアライメント収束速度を改善し、トレーニングパイプラインを単純化し、長い発話のエラーに対してモデルをより堅牢にする。
最も重要なことは、このフレームワークが人間の評価者によって判断されるように、知覚された音声合成品質を改善することである。
関連論文リスト
- Pseudo-Autoregressive Neural Codec Language Models for Efficient Zero-Shot Text-to-Speech Synthesis [64.12708207721276]
本稿では,AR と NAR を統一した新しい擬似自己回帰(PAR)言語モデリング手法を提案する。
PAR 上に構築した PALLE は 2 段階の TTS システムであり, PAR を初期生成に利用し, NAR を改良する。
実験では、LibriTTSでトレーニングされたPALLEが、大規模データでトレーニングされた最先端システムを上回っていることが示された。
論文 参考訳(メタデータ) (2025-04-14T16:03:21Z) - SupertonicTTS: Towards Highly Scalable and Efficient Text-to-Speech System [10.506722096503038]
音声合成におけるスケーラビリティと効率を向上させるために,新しい音声合成システムであるSupertonicTTSを提案する。
SupertonicTTSは3つのコンポーネントで構成されており、連続潜時表現のための音声オートエンコーダ、テキスト・トゥ・ラテント・モジュール、発話レベルの時間予測器である。
論文 参考訳(メタデータ) (2025-03-29T14:59:32Z) - MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis [56.25862714128288]
本稿では,イノベーティブなスパースアライメントアルゴリズムを備えたゼロショット音声合成(TTS)システムであるtextitMegaTTS 3を提案する。
具体的には,検索空間を制限せずにアライメントの困難さを軽減するために,MegaTTS 3にスパースアライメント境界を提供する。
実験により、MegaTTS 3は最先端のゼロショットTTS音声品質を実現し、アクセント強度を柔軟に制御できることが示されている。
論文 参考訳(メタデータ) (2025-02-26T08:22:00Z) - Hard-Synth: Synthesizing Diverse Hard Samples for ASR using Zero-Shot TTS and LLM [48.71951982716363]
テキスト音声合成(TTS)モデルは自動音声認識(ASR)システムを強化するために広く採用されている。
我々は,大規模言語モデル(LLM)と高度なゼロショットTSを利用する新しいASRデータ拡張手法であるHard-Synthを提案する。
我々のアプローチでは、追加のテキストデータに頼ることなく、書き直しによる多様なドメイン内テキストを生成するためにLLMを用いる。
論文 参考訳(メタデータ) (2024-11-20T09:49:37Z) - Very Attentive Tacotron: Robust and Unbounded Length Generalization in Autoregressive Transformer-Based Text-to-Speech [9.982121768809854]
本稿では,ARトランスフォーマーを用いたエンコーダ・デコーダによる音声合成システムの改良について述べる。
提案手法では,アライメント機構を用いて,相対的な位置情報を用いたクロスアテンション操作を行う。
これらの改良を取り入れたVery Attentive Tacotronと呼ばれるシステムは、ベースラインT5ベースのTSシステムの自然性と表現性にマッチする。
論文 参考訳(メタデータ) (2024-10-29T16:17:01Z) - SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。
SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。
我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-08-25T17:07:39Z) - DiTTo-TTS: Efficient and Scalable Zero-Shot Text-to-Speech with Diffusion Transformer [9.032701216955497]
市販の事前学習テキストと音声エンコーダを利用した効率よくスケーラブルな拡散変換器(DiT)を提案する。
提案手法は, 音声表現の総長の予測により, テキスト・音声アライメントの課題に対処する。
トレーニングデータセットとモデルサイズはそれぞれ82K時間と790Mパラメータにスケールします。
論文 参考訳(メタデータ) (2024-06-17T11:25:57Z) - Utilizing Neural Transducers for Two-Stage Text-to-Speech via Semantic
Token Prediction [15.72317249204736]
本稿では,ニューラルトランスデューサを中心とした新しいテキスト音声合成(TTS)フレームワークを提案する。
提案手法では,TSパイプライン全体をセマンティックレベルのシーケンス・ツー・シーケンス・モデリング(seq2seq)ときめ細かな音響モデルステージに分割する。
ゼロショット適応型TS実験の結果,音声品質と話者類似度の観点から,モデルがベースラインを超えていることが判明した。
論文 参考訳(メタデータ) (2024-01-03T02:03:36Z) - Transduce and Speak: Neural Transducer for Text-to-Speech with Semantic
Token Prediction [14.661123738628772]
本稿では,ニューラルトランスデューサに基づくテキスト音声合成(TTS)フレームワークを提案する。
We use discretized semantic tokens acquired from wav2vec2.0 embeddeddings, which makes it easy to adopt a neural transducer for the TTS framework enjoy its monotonic alignment constraints。
論文 参考訳(メタデータ) (2023-11-06T06:13:39Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale
Text-to-Image Synthesis [54.39789900854696]
StyleGAN-Tは大規模なテキスト・画像合成の要求に対処する。
従来のGANよりも大幅に改善され、サンプルの品質と速度の点で蒸留拡散モデルより優れていた。
論文 参考訳(メタデータ) (2023-01-23T16:05:45Z) - Progressively Guide to Attend: An Iterative Alignment Framework for
Temporal Sentence Grounding [53.377028000325424]
時間的文接地作業のための反復アライメントネットワーク(IA-Net)を提案する。
学習可能なパラメータを持つマルチモーダル特徴をパットすることで、非整合フレームワードペアの非整合問題を軽減する。
また、アライメントの知識を洗練させるために、各アライメントモジュールに従ってキャリブレーションモジュールを考案する。
論文 参考訳(メタデータ) (2021-09-14T02:08:23Z) - GraphSpeech: Syntax-Aware Graph Attention Network For Neural Speech
Synthesis [79.1885389845874]
Transformer-based end-to-end text-to-speech synthesis (TTS)は、このような実装の成功例の一つである。
本稿では,グラフニューラルネットワークフレームワークで定式化された新しいニューラルネットワークモデルであるGraphSpeechを提案する。
実験により、GraphSpeechは、発話のスペクトルと韻律レンダリングの点で、Transformer TTSベースラインを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2020-10-23T14:14:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。