論文の概要: Duration-aware pause insertion using pre-trained language model for
multi-speaker text-to-speech
- arxiv url: http://arxiv.org/abs/2302.13652v1
- Date: Mon, 27 Feb 2023 10:40:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 16:06:39.668741
- Title: Duration-aware pause insertion using pre-trained language model for
multi-speaker text-to-speech
- Title(参考訳): 複数話者音声合成のための事前学習言語モデルを用いた継続時停止挿入
- Authors: Dong Yang, Tomoki Koriyama, Yuki Saito, Takaaki Saeki, Detai Xin,
Hiroshi Saruwatari
- Abstract要約: 事前訓練された言語モデルに基づいて,より強力な停止挿入フレームワークを提案する。
提案手法では,大規模テキストコーパス上で事前学習した変換器(BERT)の双方向エンコーダ表現を用いる。
また、より自然なマルチスピーカTSに対して、持続時間対応の停止挿入を利用する。
- 参考スコア(独自算出の注目度): 40.65850332919397
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Pause insertion, also known as phrase break prediction and phrasing, is an
essential part of TTS systems because proper pauses with natural duration
significantly enhance the rhythm and intelligibility of synthetic speech.
However, conventional phrasing models ignore various speakers' different styles
of inserting silent pauses, which can degrade the performance of the model
trained on a multi-speaker speech corpus. To this end, we propose more powerful
pause insertion frameworks based on a pre-trained language model. Our approach
uses bidirectional encoder representations from transformers (BERT) pre-trained
on a large-scale text corpus, injecting speaker embedding to capture various
speaker characteristics. We also leverage duration-aware pause insertion for
more natural multi-speaker TTS. We develop and evaluate two types of models.
The first improves conventional phrasing models on the position prediction of
respiratory pauses (RPs), i.e., silent pauses at word transitions without
punctuation. It performs speaker-conditioned RP prediction considering
contextual information and is used to demonstrate the effect of speaker
information on the prediction. The second model is further designed for
phoneme-based TTS models and performs duration-aware pause insertion,
predicting both RPs and punctuation-indicated pauses (PIPs) that are
categorized by duration. The evaluation results show that our models improve
the precision and recall of pause insertion and the rhythm of synthetic speech.
- Abstract(参考訳): ポーズの挿入は、フレーズブレーク予測やフラージングとしても知られ、自然な持続時間を持つ適切なポーズは合成音声のリズムと知性を大幅に向上するため、ttsシステムにおいて不可欠な部分である。
しかし,従来の言い回しモデルではサイレントポーズを挿入する様々な話者の異なるスタイルを無視しており,マルチ話者音声コーパスで訓練されたモデルの性能を劣化させることができる。
そこで本研究では,事前学習言語モデルに基づくより強力な停止挿入フレームワークを提案する。
提案手法では,大規模テキストコーパス上で事前学習した変換器(BERT)からの双方向エンコーダ表現を用いて,話者埋め込みを注入し,様々な話者特性を捉える。
また、より自然なマルチスピーカTSに対して、持続時間対応の停止挿入を利用する。
我々は2種類のモデルを開発し評価する。
第一に,呼吸停止(rps)の位置予測における従来のフラージングモデル,すなわち句読点を伴わない単語遷移におけるサイレントポーズを改善する。
文脈情報を考慮した話者条件rp予測を行い、その予測に対する話者情報の影響を示す。
第2のモデルは音素ベースのTSモデルのためにさらに設計され、持続時間対応の停止挿入を実行し、時間によって分類されるRPと句読点表示停止(PIP)の両方を予測する。
評価の結果,本モデルではポーズ挿入の精度とリコール,および合成音声のリズムが向上した。
関連論文リスト
- TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - PauseSpeech: Natural Speech Synthesis via Pre-trained Language Model and
Pause-based Prosody Modeling [25.966328901566815]
本稿では,事前学習した言語モデルとポーズに基づく韻律モデルを用いた音声合成システムPuaseSpeechを提案する。
実験の結果,PauseSpeechは自然性において過去のモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-06-13T01:36:55Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - An investigation of phrase break prediction in an End-to-End TTS system [0.0]
本研究は,TTS(End-to-End Text-to-Speech)システムにおけるリスナー理解を高めるために,外部のフレーズブレーク予測モデルを使用することを検討する。
これらのモデルの有効性は主観的テストにおけるリスナー選好に基づいて評価される。
論文 参考訳(メタデータ) (2023-04-09T04:26:58Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - Revisiting End-to-End Speech-to-Text Translation From Scratch [48.203394370942505]
E2E (End-to-end speech-to-text translation) はしばしば、音声認識やテキスト翻訳タスクを通じて、そのエンコーダおよび/またはデコーダをソース転写を用いて事前訓練することに依存する。
本稿では,音声翻訳対だけで訓練したE2E STの品質をどの程度改善できるかを考察する。
論文 参考訳(メタデータ) (2022-06-09T15:39:19Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Improving Prosody for Unseen Texts in Speech Synthesis by Utilizing
Linguistic Information and Noisy Data [20.132799566988826]
本稿では,BERTをベースとした精密なフロントエンドと事前学習したFastSpeech2ベースの音響モデルを組み合わせることで,韻律モデリングを改善することを提案する。
実験結果から,細調整されたBERTモデルと事前訓練されたFastSpeech 2の両方が,特に構造的に複雑な文の韻律を改善できることが示唆された。
論文 参考訳(メタデータ) (2021-11-15T05:58:29Z) - AdaSpeech 3: Adaptive Text to Speech for Spontaneous Style [111.89762723159677]
AdaSpeech 3 は,順応性のある TTS システムである。
AdaSpeech 3は自然なFPとリズムを自発的なスタイルで合成し、従来の適応TSシステムよりもずっと優れたMOSとSMOSスコアを達成する。
論文 参考訳(メタデータ) (2021-07-06T10:40:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。