論文の概要: VARA-TTS: Non-Autoregressive Text-to-Speech Synthesis based on Very Deep
VAE with Residual Attention
- arxiv url: http://arxiv.org/abs/2102.06431v1
- Date: Fri, 12 Feb 2021 10:26:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-15 13:04:03.215744
- Title: VARA-TTS: Non-Autoregressive Text-to-Speech Synthesis based on Very Deep
VAE with Residual Attention
- Title(参考訳): VARA-TTS: 非常に深いVAEに基づく非自動回帰テキスト-音声合成
- Authors: Peng Liu, Yuewen Cao, Songxiang Liu, Na Hu, Guangzhi Li, Chao Weng,
Dan Su
- Abstract要約: 本稿では,超深度変分オートエンコーダ(VDVAE)を用いた非自己回帰的(非AR)テキスト音声合成モデルを提案する。
実験結果から,VARA-TTSはARのタコトロン2に比べて音声品質がわずかに劣るが,推定精度は高くなることがわかった。
- 参考スコア(独自算出の注目度): 28.15932481851868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes VARA-TTS, a non-autoregressive (non-AR) text-to-speech
(TTS) model using a very deep Variational Autoencoder (VDVAE) with Residual
Attention mechanism, which refines the textual-to-acoustic alignment
layer-wisely. Hierarchical latent variables with different temporal resolutions
from the VDVAE are used as queries for residual attention module. By leveraging
the coarse global alignment from previous attention layer as an extra input,
the following attention layer can produce a refined version of alignment. This
amortizes the burden of learning the textual-to-acoustic alignment among
multiple attention layers and outperforms the use of only a single attention
layer in robustness. An utterance-level speaking speed factor is computed by a
jointly-trained speaking speed predictor, which takes the mean-pooled latent
variables of the coarsest layer as input, to determine number of acoustic
frames at inference. Experimental results show that VARA-TTS achieves slightly
inferior speech quality to an AR counterpart Tacotron 2 but an
order-of-magnitude speed-up at inference; and outperforms an analogous non-AR
model, BVAE-TTS, in terms of speech quality.
- Abstract(参考訳): 本稿では,残差注意機構を有する超深部変分オートエンコーダ(vdvae)を用いた非自己回帰型(非ar)テキスト・ツー・スパイチ(tts)モデルであるvara-ttsを提案する。
VDVAEとは異なる時間分解能を持つ階層的潜時変数は、残留注意モジュールのクエリとして使用される。
従来のアライメント層からの粗いグローバルアライメントを追加入力として活用することで、以下のアライメント層が洗練されたアライメントバージョンを作成できます。
これは、複数の注意層間のテキストと音響のアライメントを学ぶことの負担を償却し、堅牢性における単一の注意層の使用を上回っます。
粗い層の平均潜時変数を入力とし、推論時の音響フレーム数を決定する共同訓練された発声速度予測器により、発話レベル発声速度係数を算出する。
実験結果から,VARA-TTSはAR対応のTacotron 2に比べてわずかに劣るが,推定時の高次精度向上を実現し,音声品質の面では類似の非ARモデルであるBVAE-TTSよりも優れていた。
関連論文リスト
- VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - Utilizing Neural Transducers for Two-Stage Text-to-Speech via Semantic
Token Prediction [15.72317249204736]
本稿では,ニューラルトランスデューサを中心とした新しいテキスト音声合成(TTS)フレームワークを提案する。
提案手法では,TSパイプライン全体をセマンティックレベルのシーケンス・ツー・シーケンス・モデリング(seq2seq)ときめ細かな音響モデルステージに分割する。
ゼロショット適応型TS実験の結果,音声品質と話者類似度の観点から,モデルがベースラインを超えていることが判明した。
論文 参考訳(メタデータ) (2024-01-03T02:03:36Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - ConsistencyTTA: Accelerating Diffusion-Based Text-to-Audio Generation with Consistency Distillation [21.335983674309475]
拡散モデルは、世代毎の根底にあるデノナイジングネットワークへのクエリ数が過度に多いため、遅い推論に悩まされる。
本稿では,1つの非自己回帰型ネットワーククエリのみを必要とするフレームワークであるConsistencyTTAを紹介する。
そこで我々は「CFG対応潜時整合モデル」を提案し, 整合性生成を潜時空間に適応させる。
論文 参考訳(メタデータ) (2023-09-19T16:36:33Z) - High-Quality Automatic Voice Over with Accurate Alignment: Supervision
through Self-Supervised Discrete Speech Units [69.06657692891447]
本稿では,自己教師付き離散音声単位予測の学習目的を活用した新しいAVO手法を提案する。
実験結果から,提案手法は有意な唇音声同期と高音質を実現することが示された。
論文 参考訳(メタデータ) (2023-06-29T15:02:22Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Emphasis control for parallel neural TTS [8.039245267912511]
音声信号によって伝達される意味情報は、韻律の局所的な変化に強く影響される。
近年のパラレル・ニューラルテキスト・トゥ・音声(TTS)法は,高性能を維持しつつ高い忠実度で音声を生成することができる。
本稿では,重心変化に対応する潜在空間を学習することにより,韻律強調制御のための階層型並列型ニューラルネットワークTSシステムを提案する。
論文 参考訳(メタデータ) (2021-10-06T18:45:39Z) - Learning Robust Latent Representations for Controllable Speech Synthesis [0.0]
RTI-VAE(Reordered Transformer with Information reduction VAE)を提案し、異なる潜在変数間の相互情報を最小限に抑える。
RTI-VAEは話者属性のクラスタオーバーラップをLSTM-VAE以上30%,バニラトランスフォーマー-VAE以上7%以上削減することを示した。
論文 参考訳(メタデータ) (2021-05-10T15:49:03Z) - Target-Speaker Voice Activity Detection: a Novel Approach for
Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。
TS-VADは各時間フレーム上の各話者の活動を直接予測する。
CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文 参考訳(メタデータ) (2020-05-14T21:24:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。