論文の概要: On the Interplay Between Sparsity, Naturalness, Intelligibility, and
Prosody in Speech Synthesis
- arxiv url: http://arxiv.org/abs/2110.01147v1
- Date: Mon, 4 Oct 2021 02:03:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-05 15:20:54.270981
- Title: On the Interplay Between Sparsity, Naturalness, Intelligibility, and
Prosody in Speech Synthesis
- Title(参考訳): 音声合成におけるスパース性,自然性,知性,韻律の相互作用について
- Authors: Cheng-I Jeff Lai, Erica Cooper, Yang Zhang, Shiyu Chang, Kaizhi Qian,
Yi-Lun Liao, Yung-Sung Chuang, Alexander H. Liu, Junichi Yamagishi, David
Cox, James Glass
- Abstract要約: スパーティイとその後の合成音声に対する効果のトレードオフについて検討する。
以上の結果から, 終末TTSモデルに限らず, プルーニングされたTTSモデルでも, 自然性や知性に富んだ合成音声を生成できることが示唆された。
- 参考スコア(独自算出の注目度): 102.80458458550999
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Are end-to-end text-to-speech (TTS) models over-parametrized? To what extent
can these models be pruned, and what happens to their synthesis capabilities?
This work serves as a starting point to explore pruning both spectrogram
prediction networks and vocoders. We thoroughly investigate the tradeoffs
between sparstiy and its subsequent effects on synthetic speech. Additionally,
we explored several aspects of TTS pruning: amount of finetuning data versus
sparsity, TTS-Augmentation to utilize unspoken text, and combining knowledge
distillation and pruning. Our findings suggest that not only are end-to-end TTS
models highly prunable, but also, perhaps surprisingly, pruned TTS models can
produce synthetic speech with equal or higher naturalness and intelligibility,
with similar prosody. All of our experiments are conducted on publicly
available models, and findings in this work are backed by large-scale
subjective tests and objective measures. Code and 200 pruned models are made
available to facilitate future research on efficiency in TTS.
- Abstract(参考訳): エンドツーエンドのテキスト音声(TTS)モデルは過度にパラメータ化されているか?
これらのモデルはどの程度まで刈り取られるのか、そしてそれらの合成能力はどうなるのか?
この研究は、スペクトログラム予測ネットワークとボコーダの両方を刈り取るための出発点となる。
我々は、スパルスティイとそれに続く合成音声に対する影響のトレードオフを徹底的に調査する。
さらに, 細粒度データ量と空隙量, 未発見テキストの活用のためのTS拡張, 知識蒸留とプルーニングの組み合わせなど, TTSプルーニングのいくつかの側面について検討した。
以上の結果から,TTSモデルは終末から終末までのモデルであるだけでなく,おそらく驚くべきことに,同じあるいは高い自然性や知性を持つ合成音声を生成できる可能性が示唆された。
私たちの実験はすべて公開モデルで行われ、本研究の知見は大規模な主観的テストと客観的な測定によって裏付けられています。
コードと200個のプルーニングされたモデルは、将来のTSの効率性の研究を促進するために利用可能である。
関連論文リスト
- Beyond Oversmoothing: Evaluating DDPM and MSE for Scalable Speech Synthesis in ASR [13.307889110301502]
ASRモデルのトレーニングに使用する場合, DPM(Denoising Diffusion Probabilistic Models)とTSのMean Squared Error(MSE)ベースのモデルを比較した。
与えられたモデルサイズに対して、DDPMはMSEモデルよりも多くのデータとより多様な話者の集合をうまく利用することができる。
実話と合成音声のWERの比率(1.46)は最も高いが,大きなギャップが残っていることも確認できた。
論文 参考訳(メタデータ) (2024-10-16T06:35:56Z) - DiTTo-TTS: Efficient and Scalable Zero-Shot Text-to-Speech with Diffusion Transformer [9.032701216955497]
市販の事前学習テキストと音声エンコーダを利用した効率よくスケーラブルな拡散変換器(DiT)を提案する。
提案手法は, 音声表現の総長の予測により, テキスト・音声アライメントの課題に対処する。
トレーニングデータセットとモデルサイズはそれぞれ82K時間と790Mパラメータにスケールします。
論文 参考訳(メタデータ) (2024-06-17T11:25:57Z) - Can We Achieve High-quality Direct Speech-to-Speech Translation without Parallel Speech Data? [49.42189569058647]
2パス直接音声音声変換(S2ST)モデルは、タスクを音声音声翻訳(S2TT)とテキスト音声翻訳(TTS)に分解する
本稿では,事前学習した任意のS2TTおよびTSモデルを直接S2STモデルにシームレスに統合できるComSpeechという複合S2STモデルを提案する。
また,S2TTとTSデータのみを利用した新しいトレーニング手法ComSpeech-ZSを提案する。
論文 参考訳(メタデータ) (2024-06-11T14:17:12Z) - Schrodinger Bridges Beat Diffusion Models on Text-to-Speech Synthesis [35.16243386407448]
Bridge-TTSは、確立された拡散に基づくTS法において、ノイズの多いガウスをクリーンで決定論的に置き換える新しいTSシステムである。
具体的には、テキスト入力から得られた潜伏表現を前もって利用し、それと地上トルス・メル・スペクトログラムの間に完全にトラクタブルなシュロディンガーブリッジを構築する。
論文 参考訳(メタデータ) (2023-12-06T13:31:55Z) - ContraNeRF: Generalizable Neural Radiance Fields for Synthetic-to-real
Novel View Synthesis via Contrastive Learning [102.46382882098847]
まず,合成から現実への新規な視点合成における合成データの影響について検討した。
本稿では,幾何制約を伴う多視点一貫した特徴を学習するために,幾何対応のコントラスト学習を導入することを提案する。
提案手法は,PSNR,SSIM,LPIPSの点で,既存の一般化可能な新規ビュー合成手法よりも高い画質で精細な画像を描画することができる。
論文 参考訳(メタデータ) (2023-03-20T12:06:14Z) - EPIC TTS Models: Empirical Pruning Investigations Characterizing
Text-To-Speech Models [26.462819114575172]
この研究は、音声合成における空間的パラダイムを比較する。
音声合成における空間的パラダイムを比較する最初の作品である。
論文 参考訳(メタデータ) (2022-09-22T09:47:25Z) - BERT, can HE predict contrastive focus? Predicting and controlling
prominence in neural TTS using a language model [29.188684861193092]
コントラスト焦点を含む発話に基づいて,音質特性の定量化を図ったBERTモデルの精度を評価する。
また,音響的特徴に基づくTSモデルにおける代名詞長の制御性についても検討した。
論文 参考訳(メタデータ) (2022-07-04T20:43:41Z) - ProsoSpeech: Enhancing Prosody With Quantized Vector Pre-training in
Text-to-Speech [96.0009517132463]
音声の低周波帯域を定量化し、潜在韻律ベクトル(LPV)における韻律特性を圧縮する単語レベル韻律エンコーダを提案する。
次に、LPV予測器を導入し、与えられた単語列を予測し、高品質なTSデータセットで微調整する。
実験結果から, ProsoSpeechはベースライン法と比較してよりリッチな韻律で音声を生成することができることがわかった。
論文 参考訳(メタデータ) (2022-02-16T01:42:32Z) - A Survey on Neural Speech Synthesis [110.39292386792555]
テキスト・トゥ・スピーチ(TTS)は、音声、言語、機械学習のコミュニティにおけるホットな研究テーマである。
我々は、現在の研究と今後のトレンドをよく理解することを目的として、ニューラルTSに関する包括的な調査を行っている。
我々は、テキスト分析、音響モデル、ボコーダなど、ニューラルネットワークの重要なコンポーネントと、高速TS、低リソースTS、堅牢TS、表現型TS、適応型TSなど、いくつかの先進的なトピックに焦点を当てる。
論文 参考訳(メタデータ) (2021-06-29T16:50:51Z) - Hierarchical Prosody Modeling for Non-Autoregressive Speech Synthesis [76.39883780990489]
我々は,異なる韻律モデル設定下での非自己回帰的TSモデルの挙動を解析する。
本稿では,音素レベルの韻律的特徴を単語レベルの韻律的特徴に基づいて予測する階層的アーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-12T16:16:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。