論文の概要: On the Use of Self-Supervised Speech Representations in Spontaneous
Speech Synthesis
- arxiv url: http://arxiv.org/abs/2307.05132v1
- Date: Tue, 11 Jul 2023 09:22:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-12 15:46:35.213362
- Title: On the Use of Self-Supervised Speech Representations in Spontaneous
Speech Synthesis
- Title(参考訳): 自発音声合成における自己教師あり音声表現の利用について
- Authors: Siyang Wang, Gustav Eje Henter, Joakim Gustafson, \'Eva Sz\'ekely
- Abstract要約: 書き起こしのない多種多様な混合品質音声データから学習した自己教師付き学習(SSL)音声表現は、多くの音声技術応用において基礎を成している。
読解音声と自発音声の両方において、SSLは2段階のテキスト音声(TTS)において効果的な中間表現であることを示す。
我々は、自発TLSにおけるSSLの比較範囲を、各SSL内の6つの異なるSSLと3つのレイヤに拡張する。
- 参考スコア(独自算出の注目度): 12.53269106994881
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning (SSL) speech representations learned from large
amounts of diverse, mixed-quality speech data without transcriptions are
gaining ground in many speech technology applications. Prior work has shown
that SSL is an effective intermediate representation in two-stage
text-to-speech (TTS) for both read and spontaneous speech. However, it is still
not clear which SSL and which layer from each SSL model is most suited for
spontaneous TTS. We address this shortcoming by extending the scope of
comparison for SSL in spontaneous TTS to 6 different SSLs and 3 layers within
each SSL. Furthermore, SSL has also shown potential in predicting the mean
opinion scores (MOS) of synthesized speech, but this has only been done in
read-speech MOS prediction. We extend an SSL-based MOS prediction framework
previously developed for scoring read speech synthesis and evaluate its
performance on synthesized spontaneous speech. All experiments are conducted
twice on two different spontaneous corpora in order to find generalizable
trends. Overall, we present comprehensive experimental results on the use of
SSL in spontaneous TTS and MOS prediction to further quantify and understand
how SSL can be used in spontaneous TTS. Audios samples:
https://www.speech.kth.se/tts-demos/sp_ssl_tts
- Abstract(参考訳): 書き起こしのない多種多様な混合品質音声データから学習した自己教師付き学習(SSL)音声表現は、多くの音声技術応用において基礎を成している。
従来の研究によると、SSLは2段階のテキスト音声(TTS)において、読み書きと自然発話の両方に有効な中間表現である。
しかしながら、SSLのどの層と各SSLモデルのどの層が自発的TSに最も適しているかは、まだ明らかではない。
我々は、自発TLSにおけるSSLの比較範囲を、各SSL内の6つの異なるSSLと3つのレイヤに拡張することで、この欠点に対処する。
さらに、SSLは合成音声の平均世論スコア(MOS)を予測する可能性も示したが、これは読み書きMOS予測でしか行われていない。
本研究では,読解音声合成のためのsslベースのmos予測フレームワークを拡張し,合成音声におけるその性能評価を行う。
すべての実験は、一般化可能な傾向を見つけるために、2つの異なる自発的なコーパスで2回行われる。
本研究は,自発性TTSにおけるSSLの使用に関する総合的な実験結果と,自発性TTSにおけるSSLの使用方法の定量化と理解について述べる。
音声サンプル: https://www.speech.kth.se/tts-demos/sp_ssl_tts
関連論文リスト
- SSL-TTS: Leveraging Self-Supervised Embeddings and kNN Retrieval for Zero-Shot Multi-speaker TTS [18.701864254184308]
TTSの効果的な中間表現として,自己教師付き学習(SSL)音声の特徴が出現している。
本研究では、単一話者からの音声の書き起こしに基づいて訓練された軽量で効率的なゼロショットTTSフレームワークであるSSL-TTSを紹介する。
論文 参考訳(メタデータ) (2024-08-20T12:09:58Z) - What Do Self-Supervised Speech and Speaker Models Learn? New Findings
From a Cross Model Layer-Wise Analysis [44.93152068353389]
自己教師付き学習(SSL)は、意味のある音声表現を学習するために注目を集めている。
話者SSLモデルは、主に話者表現のための発話レベルの訓練目標を採用する。
論文 参考訳(メタデータ) (2024-01-31T07:23:22Z) - SpeechGLUE: How Well Can Self-Supervised Speech Models Capture Linguistic Knowledge? [45.901645659694935]
音声表現のための自己教師付き学習(SSL)は、様々な下流タスクにうまく適用されている。
本稿では,音声SSL技術が言語知識をうまく捉えることができるかどうかを明らかにすることを目的とする。
論文 参考訳(メタデータ) (2023-06-14T09:04:29Z) - A Comparative Study of Self-Supervised Speech Representations in Read
and Spontaneous TTS [12.53269106994881]
以上の結果から,12層のwav2vec2.0(ASR微調整)の9層は,読取・自発TTSにおいて,他のSSLやメル・スペクトログラムよりも優れていた。
我々の研究は、音声SSLが現在のTSシステムを簡単に改善できる方法と、TLSの困難な生成タスクにおいてSSLがどのように比較できるかの両方に光を当てています。
論文 参考訳(メタデータ) (2023-03-05T17:20:10Z) - The Ability of Self-Supervised Speech Models for Audio Representations [53.19715501273934]
自己教師付き学習(SSL)音声モデルは、音声表現学習において前例のない成功を収めた。
我々は、最先端のSSL音声モデルの表現能力を評価するために、豊富な音声および非音声音声データセットに関する広範な実験を行う。
結果から、SSL音声モデルは幅広い非音声音声の有意義な特徴を抽出できるが、特定の種類のデータセットではフェールする可能性があることが示された。
論文 参考訳(メタデータ) (2022-09-26T15:21:06Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Audio Self-supervised Learning: A Survey [60.41768569891083]
SSL(Self-Supervised Learning)は、人間のアノテーションを必要とせずに、大規模データから一般的な表現を見つけることを目的としている。
コンピュータビジョンと自然言語処理の分野での成功により、近年では音声処理や音声処理の分野で採用されている。
論文 参考訳(メタデータ) (2022-03-02T15:58:29Z) - Sound and Visual Representation Learning with Multiple Pretraining Tasks [104.11800812671953]
自己管理タスク(SSL)は、データと異なる特徴を明らかにする。
この作業は、下流のすべてのタスクをうまく一般化する複数のSSLタスク(Multi-SSL)を組み合わせることを目的としている。
音響表現の実験では、SSLタスクのインクリメンタルラーニング(IL)によるマルチSSLが、単一のSSLタスクモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-01-04T09:09:38Z) - LeBenchmark: A Reproducible Framework for Assessing Self-Supervised
Representation Learning from Speech [63.84741259993937]
膨大なラベルのないデータを用いた自己教師付き学習(SSL)は、画像処理と自然言語処理に成功している。
最近の研究では、音声からSSLも調べた。
音声からSSLを評価する再現可能なフレームワークであるLeBenchmarkを提案する。
論文 参考訳(メタデータ) (2021-04-23T08:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。