論文の概要: A Comparative Study of Self-Supervised Speech Representations in Read
and Spontaneous TTS
- arxiv url: http://arxiv.org/abs/2303.02719v2
- Date: Mon, 10 Jul 2023 15:15:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 22:15:32.329824
- Title: A Comparative Study of Self-Supervised Speech Representations in Read
and Spontaneous TTS
- Title(参考訳): 読み上げと自発性ttにおける自己教師あり音声表現の比較研究
- Authors: Siyang Wang, Gustav Eje Henter, Joakim Gustafson, \'Eva Sz\'ekely
- Abstract要約: 以上の結果から,12層のwav2vec2.0(ASR微調整)の9層は,読取・自発TTSにおいて,他のSSLやメル・スペクトログラムよりも優れていた。
我々の研究は、音声SSLが現在のTSシステムを簡単に改善できる方法と、TLSの困難な生成タスクにおいてSSLがどのように比較できるかの両方に光を当てています。
- 参考スコア(独自算出の注目度): 12.53269106994881
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has explored using self-supervised learning (SSL) speech
representations such as wav2vec2.0 as the representation medium in standard
two-stage TTS, in place of conventionally used mel-spectrograms. It is however
unclear which speech SSL is the better fit for TTS, and whether or not the
performance differs between read and spontaneous TTS, the later of which is
arguably more challenging. This study aims at addressing these questions by
testing several speech SSLs, including different layers of the same SSL, in
two-stage TTS on both read and spontaneous corpora, while maintaining constant
TTS model architecture and training settings. Results from listening tests show
that the 9th layer of 12-layer wav2vec2.0 (ASR finetuned) outperforms other
tested SSLs and mel-spectrogram, in both read and spontaneous TTS. Our work
sheds light on both how speech SSL can readily improve current TTS systems, and
how SSLs compare in the challenging generative task of TTS. Audio examples can
be found at https://www.speech.kth.se/tts-demos/ssr_tts
- Abstract(参考訳): 近年,標準2段階TSの表現媒体としてwav2vec2.0などの自己教師付き学習(SSL)音声表現を,従来から使用されているメルスペクトルの代わりに利用することが検討されている。
しかし、どの音声sslがttsに適しているか、そしてその性能が読み取りと自発的ttsとで異なるかどうかは明らかではない。
本研究の目的は,同じSSLの異なるレイヤを含む複数の音声SSLを,読み取りおよび自発コーパスの2段階のTSでテストし,一定のTSモデルアーキテクチャとトレーニング設定を維持しながら,これらの問題に対処することである。
リスニングテストの結果、12層wav2vec2.0の第9層(asr微調整)は他のsslおよびmel-spectrogramをリードおよび自発ttで上回った。
我々の研究は、音声SSLが現在のTSシステムを簡単に改善できる方法と、TLSの困難な生成タスクにおけるSSLの比較の両方に光を当てています。
オーディオの例はhttps://www.speech.kth.se/tts-demos/ssr_ttsにある。
関連論文リスト
- SSL-TTS: Leveraging Self-Supervised Embeddings and kNN Retrieval for Zero-Shot Multi-speaker TTS [18.701864254184308]
TTSの効果的な中間表現として,自己教師付き学習(SSL)音声の特徴が出現している。
本研究では、単一話者からの音声の書き起こしに基づいて訓練された軽量で効率的なゼロショットTTSフレームワークであるSSL-TTSを紹介する。
論文 参考訳(メタデータ) (2024-08-20T12:09:58Z) - Can We Achieve High-quality Direct Speech-to-Speech Translation without Parallel Speech Data? [49.42189569058647]
2パス直接音声音声変換(S2ST)モデルは、タスクを音声音声翻訳(S2TT)とテキスト音声翻訳(TTS)に分解する
本稿では,事前学習した任意のS2TTおよびTSモデルを直接S2STモデルにシームレスに統合できるComSpeechという複合S2STモデルを提案する。
また,S2TTとTSデータのみを利用した新しいトレーニング手法ComSpeech-ZSを提案する。
論文 参考訳(メタデータ) (2024-06-11T14:17:12Z) - On the Use of Self-Supervised Speech Representations in Spontaneous
Speech Synthesis [12.53269106994881]
書き起こしのない多種多様な混合品質音声データから学習した自己教師付き学習(SSL)音声表現は、多くの音声技術応用において基礎を成している。
読解音声と自発音声の両方において、SSLは2段階のテキスト音声(TTS)において効果的な中間表現であることを示す。
我々は、自発TLSにおけるSSLの比較範囲を、各SSL内の6つの異なるSSLと3つのレイヤに拡張する。
論文 参考訳(メタデータ) (2023-07-11T09:22:10Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - Enhancing Speech-to-Speech Translation with Multiple TTS Targets [62.18395387305803]
直接S2STモデルに対する合成対象音声の変更の効果を解析する。
異なるTSシステムから複数のターゲットを持つS2STシステムを協調的に最適化するマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-10T14:33:33Z) - The Ability of Self-Supervised Speech Models for Audio Representations [53.19715501273934]
自己教師付き学習(SSL)音声モデルは、音声表現学習において前例のない成功を収めた。
我々は、最先端のSSL音声モデルの表現能力を評価するために、豊富な音声および非音声音声データセットに関する広範な実験を行う。
結果から、SSL音声モデルは幅広い非音声音声の有意義な特徴を抽出できるが、特定の種類のデータセットではフェールする可能性があることが示された。
論文 参考訳(メタデータ) (2022-09-26T15:21:06Z) - AdaSpeech 2: Adaptive Text to Speech with Untranscribed Data [115.38309338462588]
AdaSpeech 2 は、未転写音声データのみを適応に利用する適応型 TTS システムである。
具体的には,よく訓練されたttsモデルにmel-spectrogramエンコーダを導入し,音声再構成を行う。
適応では,ttsデコーダのみを微調整し,未書き起こし音声データを用いて音声再構成を行う。
論文 参考訳(メタデータ) (2021-04-20T01:53:30Z) - Learning Speaker Embedding from Text-to-Speech [59.80309164404974]
我々は,エンドツーエンドのTacotron 2 TTSと話者埋め込みネットワークを,自己指導型で共同で訓練した。
本研究は,手書き文字とASR書き起こし文字のトレーニングについて検討した。
教師なしTS埋め込みは、LibriTTSデータセットのi-vectorに関して、EERを2.06%改善した。
論文 参考訳(メタデータ) (2020-10-21T18:03:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。