論文の概要: Enhancing Speech Intelligibility in Text-To-Speech Synthesis using
Speaking Style Conversion
- arxiv url: http://arxiv.org/abs/2008.05809v1
- Date: Thu, 13 Aug 2020 10:51:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 00:07:07.725553
- Title: Enhancing Speech Intelligibility in Text-To-Speech Synthesis using
Speaking Style Conversion
- Title(参考訳): 話し方変換を用いた音声合成における音声明瞭度向上
- Authors: Dipjyoti Paul, Muhammed PV Shifas, Yannis Pantazis, Yannis Stylianou
- Abstract要約: 本稿では,Tacotron と WaveRNN を用いた TTS 合成を用いた新しいトランスファー学習手法を提案する。
提案した音声システムは, (a)ロンバルド話し方データと (b)スペクトル整形とダイナミックレンジ圧縮 (SSDRC) の2つの修正手法を利用する。
Bits測定におけるIntelligibilityによる定量化による信頼性向上は,提案したLombard-SSDRC TTSシステムにおいて,音声形雑音(SSN)の110%から130%,競合話者雑音(CSN)の47%から140%に有意な改善が認められたことを示している。
- 参考スコア(独自算出の注目度): 17.520533341887642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increased adoption of digital assistants makes text-to-speech (TTS)
synthesis systems an indispensable feature of modern mobile devices. It is
hence desirable to build a system capable of generating highly intelligible
speech in the presence of noise. Past studies have investigated style
conversion in TTS synthesis, yet degraded synthesized quality often leads to
worse intelligibility. To overcome such limitations, we proposed a novel
transfer learning approach using Tacotron and WaveRNN based TTS synthesis. The
proposed speech system exploits two modification strategies: (a) Lombard
speaking style data and (b) Spectral Shaping and Dynamic Range Compression
(SSDRC) which has been shown to provide high intelligibility gains by
redistributing the signal energy on the time-frequency domain. We refer to this
extension as Lombard-SSDRC TTS system. Intelligibility enhancement as
quantified by the Intelligibility in Bits (SIIB-Gauss) measure shows that the
proposed Lombard-SSDRC TTS system shows significant relative improvement
between 110% and 130% in speech-shaped noise (SSN), and 47% to 140% in
competing-speaker noise (CSN) against the state-of-the-art TTS approach.
Additional subjective evaluation shows that Lombard-SSDRC TTS successfully
increases the speech intelligibility with relative improvement of 455% for SSN
and 104% for CSN in median keyword correction rate compared to the baseline TTS
method.
- Abstract(参考訳): デジタルアシスタントの普及により、tts(text-to-speech)合成システムは現代のモバイルデバイスにとって必須の機能となっている。
したがって、雑音の存在下で高度に理解可能な音声を生成できるシステムを構築することが望ましい。
過去の研究では、tts合成のスタイル変換が研究されているが、分解された合成品質はしばしば理解度を低下させる。
そこで我々は,Tacotron と WaveRNN を用いた TTS 合成を用いたトランスファー学習手法を提案する。
提案する音声システムは2つの修正戦略を生かしている。
(a)ロンバルド語型データ及び
b) スペクトル整形およびダイナミックレンジ圧縮(ssdrc)は、信号エネルギーを時間周波数領域に再分配することにより、高い知性の向上をもたらすことが示されている。
この拡張をLombard-SSDRC TTSシステムと呼ぶ。
siib-gauss (intelligibility in bits) によって定量化される知性向上は, 提案するランゴバルド・ssdrc ttsシステムは, 発声形雑音 (ssn) の110%から130%, 競合話者雑音 (csn) の47%から140%の相対的改善を示すことを示す。
主観評価の結果,Lombard-SSDRC TTSはSSNが455%,CSNが104%向上し,音声認識能力が向上した。
関連論文リスト
- Hard-Synth: Synthesizing Diverse Hard Samples for ASR using Zero-Shot TTS and LLM [48.71951982716363]
テキスト音声合成(TTS)モデルは自動音声認識(ASR)システムを強化するために広く採用されている。
我々は,大規模言語モデル(LLM)と高度なゼロショットTSを利用する新しいASRデータ拡張手法であるHard-Synthを提案する。
我々のアプローチでは、追加のテキストデータに頼ることなく、書き直しによる多様なドメイン内テキストを生成するためにLLMを用いる。
論文 参考訳(メタデータ) (2024-11-20T09:49:37Z) - Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。
話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。
テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文 参考訳(メタデータ) (2024-07-08T18:20:24Z) - EM-TTS: Efficiently Trained Low-Resource Mongolian Lightweight Text-to-Speech [4.91849983180793]
本稿では,深層畳み込みニューラルネットワークに基づくテキスト音声合成システムを提案する。
私たちのモデルは、Text2SpectrumとSSRNの2つのステージで構成されています。
実験の結果,合成音声の品質と自然性を確保しつつ,学習時間とパラメータを低減できることがわかった。
論文 参考訳(メタデータ) (2024-03-13T01:27:57Z) - Noise-robust zero-shot text-to-speech synthesis conditioned on
self-supervised speech-representation model with adapters [47.75276947690528]
ゼロショットテキスト音声(TTS)法は,話者特性を極めて正確に再現することができる。
しかし、この手法は、参照音声が雑音を含む場合、音声合成品質の劣化に悩まされる。
本稿では,ノイズロストゼロショットTS法を提案する。
論文 参考訳(メタデータ) (2024-01-10T12:21:21Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - Synthesizing Dysarthric Speech Using Multi-talker TTS for Dysarthric
Speech Recognition [4.637732011720613]
Dysarthria は運動性発声障害であり、しばしば発声能力の低下を特徴とする。
頑健な変形性障害に対処するためには,十分な訓練音声が必要である。
テキスト音声合成の最近の進歩は、データ拡張に合成を利用する可能性を示している。
論文 参考訳(メタデータ) (2022-01-27T15:22:09Z) - Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。
本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文 参考訳(メタデータ) (2022-01-15T13:02:40Z) - Incremental Speech Synthesis For Speech-To-Speech Translation [23.951060578077445]
本稿では,TSモデルの逐次合成性能の向上に焦点をあてる。
プレフィックスに基づく単純なデータ拡張戦略により、インクリメンタルTS品質を改善してオフラインパフォーマンスにアプローチすることが可能になります。
本稿では,S2STアプリケーションに適したレイテンシメトリクスを提案し,このコンテキストにおける遅延低減手法について検討する。
論文 参考訳(メタデータ) (2021-10-15T17:20:28Z) - Advances in Speech Vocoding for Text-to-Speech with Continuous
Parameters [2.6572330982240935]
本稿では,連続的なボコーダにおいて,全ての特徴が連続的であり,フレキシブルな音声合成システムを示す新しい手法を提案する。
位相歪みに基づく新しい連続雑音マスキングを提案し,残音の知覚的影響を排除した。
双方向長短期記憶 (LSTM) とゲートリカレント単位 (GRU) について検討し, 連続パラメータのモデル化に応用した。
論文 参考訳(メタデータ) (2021-06-19T12:05:01Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。