論文の概要: PAMA-TTS: Progression-Aware Monotonic Attention for Stable Seq2Seq TTS
With Accurate Phoneme Duration Control
- arxiv url: http://arxiv.org/abs/2110.04486v1
- Date: Sat, 9 Oct 2021 07:16:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 13:11:31.028634
- Title: PAMA-TTS: Progression-Aware Monotonic Attention for Stable Seq2Seq TTS
With Accurate Phoneme Duration Control
- Title(参考訳): PAMA-TTS: 音素継続時間制御による安定Seq2Seq TTSの進行性を考慮したモノトニックアテンション
- Authors: Yunchao He, Jian Luan, Yujun Wang
- Abstract要約: エンコーダとデコーダ間のシーケンス拡張は、シーケンス対シーケンスTSにおいて重要な課題である。
本稿では,PAMA-TTSを提案する。
フレキシブルな注意と明示的な持続時間モデルの両方を活用する。
- 参考スコア(独自算出の注目度): 11.784714704396546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequence expansion between encoder and decoder is a critical challenge in
sequence-to-sequence TTS. Attention-based methods achieve great naturalness but
suffer from unstable issues like missing and repeating phonemes, not to mention
accurate duration control. Duration-informed methods, on the contrary, seem to
easily adjust phoneme duration but show obvious degradation in speech
naturalness. This paper proposes PAMA-TTS to address the problem. It takes the
advantage of both flexible attention and explicit duration models. Based on the
monotonic attention mechanism, PAMA-TTS also leverages token duration and
relative position of a frame, especially countdown information, i.e. in how
many future frames the present phoneme will end. They help the attention to
move forward along the token sequence in a soft but reliable control.
Experimental results prove that PAMA-TTS achieves the highest naturalness,
while has on-par or even better duration controllability than the
duration-informed model.
- Abstract(参考訳): エンコーダとデコーダ間のシーケンス拡張は、シーケンス対シーケンスTSにおいて重要な課題である。
注意に基づく手法は自然性が高いが、音素の欠如や繰り返しといった不安定な問題に悩まされる。
一方、持続時間インフォームド法は音素の持続時間を容易に調整するが、音声の自然度は明らかに低下する。
本稿では,PAMA-TTSを提案する。
フレキシブルな注意と明示的な持続時間モデルの両方を活用する。
単調な注意機構に基づいて、pama-ttsはフレームのトークン持続時間と相対的な位置、特にカウントダウン情報、すなわち現在の音素が終了する将来のフレーム数を利用する。
それらは、緩やかだが信頼できるコントロールでトークンシーケンスに沿って前進するのに注意を向ける助けとなる。
実験の結果,PAMA-TTSが最も自然度が高く,持続時間インフォームドモデルよりも持続時間制御性が高いことがわかった。
関連論文リスト
- Very Attentive Tacotron: Robust and Unbounded Length Generalization in Autoregressive Transformer-Based Text-to-Speech [9.982121768809854]
本稿では,ARトランスフォーマーを用いたエンコーダ・デコーダによる音声合成システムの改良について述べる。
提案手法では,アライメント機構を用いて,相対的な位置情報を用いたクロスアテンション操作を行う。
これらの改良を取り入れたVery Attentive Tacotronと呼ばれるシステムは、ベースラインT5ベースのTSシステムの自然性と表現性にマッチする。
論文 参考訳(メタデータ) (2024-10-29T16:17:01Z) - VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - Prosody-controllable spontaneous TTS with neural HMMs [11.472325158964646]
小型で不規則なデータセットから素早く学習できるTSアーキテクチャを提案する。
我々は既存のニューラルHMMベースのTSシステムに発話レベルの韻律制御を加える。
本研究では,2種類の難聴音声を合成するシステムの性能を評価する。
論文 参考訳(メタデータ) (2022-11-24T11:06:11Z) - Explicit Intensity Control for Accented Text-to-speech [65.35831577398174]
TTSの過程におけるアクセントの強度の制御は、非常に興味深い研究方向である。
近年の作業は、話者とアクセント情報をアンタングルし、そのアクセント強度を制御するために損失重量を調整するために、話者対アダルロスを設計している。
本稿では,アクセント付きTSのための直感的かつ明示的なアクセント強度制御方式を提案する。
論文 参考訳(メタデータ) (2022-10-27T12:23:41Z) - Singing-Tacotron: Global duration control attention and dynamic filter
for End-to-end singing voice synthesis [67.96138567288197]
本稿では,歌声合成フレームワークSinging-Tacotronを提案する。
提案フレームワークとTacotronの主な違いは、音声が楽譜の持続時間情報によって大きく制御できる点である。
論文 参考訳(メタデータ) (2022-02-16T07:35:17Z) - ProsoSpeech: Enhancing Prosody With Quantized Vector Pre-training in
Text-to-Speech [96.0009517132463]
音声の低周波帯域を定量化し、潜在韻律ベクトル(LPV)における韻律特性を圧縮する単語レベル韻律エンコーダを提案する。
次に、LPV予測器を導入し、与えられた単語列を予測し、高品質なTSデータセットで微調整する。
実験結果から, ProsoSpeechはベースライン法と比較してよりリッチな韻律で音声を生成することができることがわかった。
論文 参考訳(メタデータ) (2022-02-16T01:42:32Z) - VARA-TTS: Non-Autoregressive Text-to-Speech Synthesis based on Very Deep
VAE with Residual Attention [28.15932481851868]
本稿では,超深度変分オートエンコーダ(VDVAE)を用いた非自己回帰的(非AR)テキスト音声合成モデルを提案する。
実験結果から,VARA-TTSはARのタコトロン2に比べて音声品質がわずかに劣るが,推定精度は高くなることがわかった。
論文 参考訳(メタデータ) (2021-02-12T10:26:57Z) - End-to-End Text-to-Speech using Latent Duration based on VQ-VAE [48.151894340550385]
テキスト音声合成(TTS)におけるロバストかつ効率的なアライメントの実現の鍵となる明示的持続時間モデリング
本稿では,時間長をTSの離散潜在変数として組み込んだ明示的持続時間モデルを用いた新しいTSフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-19T15:34:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。