論文の概要: Improving Prosody Modelling with Cross-Utterance BERT Embeddings for
End-to-end Speech Synthesis
- arxiv url: http://arxiv.org/abs/2011.05161v1
- Date: Fri, 6 Nov 2020 10:03:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 05:51:50.875912
- Title: Improving Prosody Modelling with Cross-Utterance BERT Embeddings for
End-to-end Speech Synthesis
- Title(参考訳): エンド・ツー・エンド音声合成のためのクロスプラットフォームBERT埋め込みによる韻律モデルの改良
- Authors: Guanghui Xu, Wei Song, Zhengchen Zhang, Chao Zhang, Xiaodong He, Bowen
Zhou
- Abstract要約: 事前訓練されたBERTモデルにより抽出された文埋め込みに基づいて、追加のCUエンコーダにより、CUコンテキストベクトルを生成する。
また, 近隣の文を変化させることで, 間接的に韻律を制御できることが判明した。
- 参考スコア(独自算出の注目度): 39.869097209615724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite prosody is related to the linguistic information up to the discourse
structure, most text-to-speech (TTS) systems only take into account that within
each sentence, which makes it challenging when converting a paragraph of texts
into natural and expressive speech. In this paper, we propose to use the text
embeddings of the neighboring sentences to improve the prosody generation for
each utterance of a paragraph in an end-to-end fashion without using any
explicit prosody features. More specifically, cross-utterance (CU) context
vectors, which are produced by an additional CU encoder based on the sentence
embeddings extracted by a pre-trained BERT model, are used to augment the input
of the Tacotron2 decoder. Two types of BERT embeddings are investigated, which
leads to the use of different CU encoder structures. Experimental results on a
Mandarin audiobook dataset and the LJ-Speech English audiobook dataset
demonstrate the use of CU information can improve the naturalness and
expressiveness of the synthesized speech. Subjective listening testing shows
most of the participants prefer the voice generated using the CU encoder over
that generated using standard Tacotron2. It is also found that the prosody can
be controlled indirectly by changing the neighbouring sentences.
- Abstract(参考訳): 韻律は言論構造まで言語情報に関係しているにもかかわらず、ほとんどのTTSシステムは各文内でのみそれを考慮しているため、文節を自然で表現力のある音声に変換することは困難である。
本稿では,隣接文のテキスト埋め込みを用いて,句の各発話に対する韻律生成を,明示的な韻律特徴を使わずにエンドツーエンドで改善する手法を提案する。
より具体的には、事前訓練されたBERTモデルによって抽出された文埋め込みに基づいて追加のCUエンコーダによって生成されるクロス発話(CU)コンテキストベクトルを用いて、Tacotron2デコーダの入力を増強する。
2種類のbert埋め込みが研究され、異なるcuエンコーダ構造が使用される。
マンダリン音声ブックデータセットとLJ-Speech英語オーディオブックデータセットの実験結果から、CU情報の使用により合成音声の自然性と表現性が向上することを示した。
主観的聴取テストは、ほとんどの参加者がCUエンコーダを用いて生成した音声を標準のTacotron2で生成した音声よりも好んでいることを示している。
また、隣接文を変更することで間接的に韻律を制御できることが判明した。
関連論文リスト
- CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - Multi-Modal Automatic Prosody Annotation with Contrastive Pretraining of SSWP [18.90593650641679]
本稿では,2段階自動アノテーションパイプラインを提案する。
第1段階では,音声文と単語句読解ペアのコントラスト事前学習を用いて,潜在表現における韻律情報を強化する。
第2段階では,事前訓練されたエンコーダ,テキスト合成方式,シーケンス分類器からなるマルチモーダルな韻律アノテータを構築した。
英語韻律境界の実験により,韻律語と韻律句に対する0.72と0.93f1のスコアで最先端のSOTA(State-of-the-art)を達成できた。
論文 参考訳(メタデータ) (2023-09-11T12:50:28Z) - Cross-Utterance Conditioned VAE for Speech Generation [27.5887600344053]
本稿では,CUC-VAE S2フレームワークを用いて,韻律の強化と自然な音声生成を実現する。
CUC-VAE TTS for text-to-speech と CUC-VAE SE for speech editor の2つの実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-08T06:48:41Z) - Improving End-to-end Speech Translation by Leveraging Auxiliary Speech
and Text Data [38.816953592085156]
本稿では,事前学習したエンドツーエンド音声翻訳システムにテキストエンコーダを導入する方法を提案する。
これは、あるモダリティ(すなわち、ソース言語音声)を他の(すなわち、ソース言語テキスト)に適応する能力を高める。
論文 参考訳(メタデータ) (2022-12-04T09:27:56Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Tokenwise Contrastive Pretraining for Finer Speech-to-BERT Alignment in
End-to-End Speech-to-Intent Systems [31.18865184576272]
この作業は、音声の埋め込みとBERTの埋め込みをトークン単位で整列させる、ずっと効率的できめ細かな方法で、これを行うためのステップです。
音声エンコーダからトークンレベルのコンテキスト埋め込みを抽出するために,クロスモーダルアテンション機構を用いた,シンプルながら斬新な手法を提案する。
音声を用いて意図認識を行うための事前訓練モデルの微調整により、2つの広く使用されているSLUデータセット上での最先端の性能が直接得られる。
論文 参考訳(メタデータ) (2022-04-11T15:24:25Z) - Improving Prosody for Unseen Texts in Speech Synthesis by Utilizing
Linguistic Information and Noisy Data [20.132799566988826]
本稿では,BERTをベースとした精密なフロントエンドと事前学習したFastSpeech2ベースの音響モデルを組み合わせることで,韻律モデリングを改善することを提案する。
実験結果から,細調整されたBERTモデルと事前訓練されたFastSpeech 2の両方が,特に構造的に複雑な文の韻律を改善できることが示唆された。
論文 参考訳(メタデータ) (2021-11-15T05:58:29Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。