論文の概要: Non-Attentive Tacotron: Robust and Controllable Neural TTS Synthesis
Including Unsupervised Duration Modeling
- arxiv url: http://arxiv.org/abs/2010.04301v4
- Date: Tue, 11 May 2021 04:12:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 12:33:18.992369
- Title: Non-Attentive Tacotron: Robust and Controllable Neural TTS Synthesis
Including Unsupervised Duration Modeling
- Title(参考訳): 非吸収性タコトロン:教師なし時間モデルを含むロバストかつ制御可能なニューラルTS合成
- Authors: Jonathan Shen, Ye Jia, Mike Chrzanowski, Yu Zhang, Isaac Elias, Heiga
Zen, Yonghui Wu
- Abstract要約: 非吸収性タコトロンは自然度4.41の5スケールの平均スコアを達成し、タコトロン2をわずかに上回っている。
時間予測器は、推定時刻における音素ごとの発話全体及び音素ごとの時間長の制御を可能にする。
- 参考スコア(独自算出の注目度): 29.24636059952458
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper presents Non-Attentive Tacotron based on the Tacotron 2
text-to-speech model, replacing the attention mechanism with an explicit
duration predictor. This improves robustness significantly as measured by
unaligned duration ratio and word deletion rate, two metrics introduced in this
paper for large-scale robustness evaluation using a pre-trained speech
recognition model. With the use of Gaussian upsampling, Non-Attentive Tacotron
achieves a 5-scale mean opinion score for naturalness of 4.41, slightly
outperforming Tacotron 2. The duration predictor enables both utterance-wide
and per-phoneme control of duration at inference time. When accurate target
durations are scarce or unavailable in the training data, we propose a method
using a fine-grained variational auto-encoder to train the duration predictor
in a semi-supervised or unsupervised manner, with results almost as good as
supervised training.
- Abstract(参考訳): 本稿では,タコトロン2のテキスト対音声モデルに基づく非接触的タコトロンについて,注意機構を明示的な持続時間予測器に置き換えた。
これにより,事前学習音声認識モデルを用いた大規模ロバストネス評価のための不整合持続率と単語削除率により,ロバストネスを著しく向上させる。
ガウスアップサンプリング(英語版)を用いることで、Non-Attentive Tacotronは自然性4.41の平均評価スコアを5スケール達成し、Tacotron 2をわずかに上回っている。
継続時間予測器は、推定時刻における発話全体と音素ごとの継続時間の制御を可能にする。
トレーニングデータに精度の高い目標期間が不足したり、利用できない場合には、細粒度の変分自動エンコーダを用いて、半教師ありまたは教師なしの方法で期間予測器を訓練する手法を提案する。
関連論文リスト
- UncertaintyRAG: Span-Level Uncertainty Enhanced Long-Context Modeling for Retrieval-Augmented Generation [93.38604803625294]
IncertaintyRAG, a novel approach for long-context Retrieval-Augmented Generation (RAG)について紹介する。
我々は、SNR(Signal-to-Noise Ratio)ベースのスパン不確実性を用いて、テキストチャンク間の類似性を推定する。
不確かさRAGはLLaMA-2-7Bでベースラインを2.03%上回り、最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-03T17:39:38Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Improving Adaptive Conformal Prediction Using Self-Supervised Learning [72.2614468437919]
我々は、既存の予測モデルの上に自己教師付きプレテキストタスクを持つ補助モデルを訓練し、自己教師付きエラーを付加的な特徴として用いて、非整合性スコアを推定する。
合成データと実データの両方を用いて、効率(幅)、欠陥、共形予測間隔の超過といった付加情報の利点を実証的に実証する。
論文 参考訳(メタデータ) (2023-02-23T18:57:14Z) - Robust Time Series Dissimilarity Measure for Outlier Detection and
Periodicity Detection [16.223509730658513]
本稿では,ノイズや外れ値の影響を低減するため,RobostDTWという新しい時系列差分尺度を提案する。
具体的には、ロバストDTWは、設計した時間グラフトレンドフィルタリングを利用して、トレンドを推定し、時間ワープを交互に最適化する。
実世界のデータセットを用いた実験では、外乱時系列検出と周期性検出の両方において、DTWの変種と比較してロバストDTWの優れた性能を示す。
論文 参考訳(メタデータ) (2022-06-07T00:49:16Z) - Teaching BERT to Wait: Balancing Accuracy and Latency for Streaming
Disfluency Detection [3.884530687475798]
BERTをベースとしたシーケンスタギングモデルは,リアルタイムに分散を検出することができる。
モデルは、インクリメンタルな拡散検出に関する最近の研究と比較して、最先端のレイテンシと安定性のスコアを得る。
論文 参考訳(メタデータ) (2022-05-02T02:13:24Z) - Regotron: Regularizing the Tacotron2 architecture via monotonic
alignment loss [71.30589161727967]
我々は、トレーニング問題を緩和し、同時に単調アライメントを生成することを目的とした、Tacotron2の正規化バージョンであるRegotronを紹介する。
本手法は,バニラTacotron2目的関数を付加項で拡張し,位置感応性注意機構における非単調アライメントをペナル化する。
論文 参考訳(メタデータ) (2022-04-28T12:08:53Z) - Consistency Regularization for Certified Robustness of Smoothed
Classifiers [89.72878906950208]
最近のランダムな平滑化技術は、最悪の$ell$-robustnessを平均ケースのロバストネスに変換することができることを示している。
その結果,スムーズな分類器の精度と信頼性の高いロバスト性とのトレードオフは,ノイズに対する予測一貫性の規則化によって大きく制御できることが判明した。
論文 参考訳(メタデータ) (2020-06-07T06:57:43Z) - End-to-End Adversarial Text-to-Speech [33.01223309795122]
正規化されたテキストや音素から音声をエンドツーエンドで合成することを学ぶ。
提案するジェネレータはフィードフォワードであり,トレーニングと推論の両方に効率的である。
敵対的フィードバックと予測損失を組み合わせた高忠実度オーディオを学習する。
論文 参考訳(メタデータ) (2020-06-05T17:41:05Z) - Spike-Triggered Non-Autoregressive Transformer for End-to-End Speech
Recognition [66.47000813920617]
エンドツーエンド音声認識のためのスパイクトリガー付き非自己回帰変換器モデルを提案する。
提案モデルでは,ターゲット列の長さを正確に予測し,競合性能を実現する。
このモデルは0.0056のリアルタイム係数も達成しており、全ての主流音声認識モデルを超えている。
論文 参考訳(メタデータ) (2020-05-16T08:27:20Z) - Long-Short Term Spatiotemporal Tensor Prediction for Passenger Flow
Profile [15.875569404476495]
本稿では,テンソルに基づく予測に焦点をあて,予測を改善するためのいくつかの実践的手法を提案する。
具体的には、長期予測のために「テンソル分解+2次元自己回帰移動平均(2D-ARMA)」モデルを提案する。
短期予測のために,テンソルクラスタリングに基づくテンソル補完を行い,過度に単純化され精度が保証されるのを避けることを提案する。
論文 参考訳(メタデータ) (2020-04-23T08:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。