論文の概要: Multi-Modal Automatic Prosody Annotation with Contrastive Pretraining of
SSWP
- arxiv url: http://arxiv.org/abs/2309.05423v1
- Date: Mon, 11 Sep 2023 12:50:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 12:50:28.413290
- Title: Multi-Modal Automatic Prosody Annotation with Contrastive Pretraining of
SSWP
- Title(参考訳): SSWPのコントラスト前処理によるマルチモーダル自動韻律アノテーション
- Authors: Jinzuomu Zhong, Yang Li, Hui Huang, Jie Liu, Zhiba Su, Jing Guo,
Benlai Tang, Fengjie Zhu
- Abstract要約: 本稿では,2段階自動アノテーションパイプラインを提案する。
第1段階では,音声文と単語句読解(SSWP)ペアのコントラッシブ・テキスト・プレトレーニングを提案する。
第2段階では、事前訓練されたエンコーダで構成されるマルチモーダル・プロソディアノテータを構築し、単純で効果的なテキスト音声特徴融合方式を提案する。
- 参考スコア(独自算出の注目度): 13.370813866319669
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the realm of expressive Text-to-Speech (TTS), explicit prosodic boundaries
significantly advance the naturalness and controllability of synthesized
speech. While human prosody annotation contributes a lot to the performance, it
is a labor-intensive and time-consuming process, often resulting in
inconsistent outcomes. Despite the availability of extensive supervised data,
the current benchmark model still faces performance setbacks. To address this
issue, a two-stage automatic annotation pipeline is novelly proposed in this
paper. Specifically, in the first stage, we propose contrastive text-speech
pretraining of Speech-Silence and Word-Punctuation (SSWP) pairs. The
pretraining procedure hammers at enhancing the prosodic space extracted from
joint text-speech space. In the second stage, we build a multi-modal prosody
annotator, which consists of pretrained encoders, a straightforward yet
effective text-speech feature fusion scheme, and a sequence classifier.
Extensive experiments conclusively demonstrate that our proposed method excels
at automatically generating prosody annotation and achieves state-of-the-art
(SOTA) performance. Furthermore, our novel model has exhibited remarkable
resilience when tested with varying amounts of data.
- Abstract(参考訳): 表現的テキスト音声(TTS)の分野では、明示的な韻律境界は合成音声の自然性と制御性を著しく向上させる。
人間の韻律アノテーションはパフォーマンスに大きく寄与するが、労働集約的で時間のかかるプロセスであり、しばしば一貫性のない結果をもたらす。
広範囲に監視されたデータが利用できるにもかかわらず、現在のベンチマークモデルは依然としてパフォーマンスの後退に直面している。
この問題に対処するために,二段階自動アノテーションパイプラインが新規に提案されている。
特に,第1段階では,音声文と単語句読解(SSWP)ペアの対照的な事前学習を提案する。
共同テキスト音声空間から抽出した韻律空間を強化するための事前訓練手順ハンマー。
第2段階では、事前訓練されたエンコーダ、単純で効果的なテキスト音声特徴融合方式、シーケンス分類器からなるマルチモーダルな韻律アノテーションを構築する。
広範な実験により,提案手法がprosodyアノテーションの自動生成に優れ,最先端(sota)性能を実現することを実証した。
さらに,本モデルでは,異なるデータ量でテストした場合に顕著な弾力性を示す。
関連論文リスト
- High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Improving Mandarin Prosodic Structure Prediction with Multi-level
Contextual Information [68.89000132126536]
本研究は,音声間言語情報を用いて韻律構造予測(PSP)の性能を向上させることを提案する。
提案手法は,韻律語(PW),韻律語(PPH),国際語句(IPH)の予測におけるF1スコアの向上を実現する。
論文 参考訳(メタデータ) (2023-08-31T09:19:15Z) - token2vec: A Joint Self-Supervised Pre-training Framework Using Unpaired
Speech and Text [65.04385919645395]
token2vecは、音声の離散表現に基づく、未ペア音声とテキストのための新しい事前学習フレームワークである。
実験の結果、 token2vec は様々な音声のみの事前学習ベースラインよりも大幅に優れており、WER の相対的な減少率は17.7%である。
論文 参考訳(メタデータ) (2022-10-30T06:38:19Z) - Automatic Prosody Annotation with Pre-Trained Text-Speech Model [48.47706377700962]
本稿では,事前学習した音声エンコーダを用いたニューラルテキスト音声モデルを用いて,テキストオーディオデータから韻律境界ラベルを自動的に抽出する。
このモデルは、テキストデータと音声データに個別に事前訓練され、TTSデータを三重奏形式(音声、テキスト、韻律)で微調整する。
論文 参考訳(メタデータ) (2022-06-16T06:54:16Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - ProsoSpeech: Enhancing Prosody With Quantized Vector Pre-training in
Text-to-Speech [96.0009517132463]
音声の低周波帯域を定量化し、潜在韻律ベクトル(LPV)における韻律特性を圧縮する単語レベル韻律エンコーダを提案する。
次に、LPV予測器を導入し、与えられた単語列を予測し、高品質なTSデータセットで微調整する。
実験結果から, ProsoSpeechはベースライン法と比較してよりリッチな韻律で音声を生成することができることがわかった。
論文 参考訳(メタデータ) (2022-02-16T01:42:32Z) - Improving Prosody for Unseen Texts in Speech Synthesis by Utilizing
Linguistic Information and Noisy Data [20.132799566988826]
本稿では,BERTをベースとした精密なフロントエンドと事前学習したFastSpeech2ベースの音響モデルを組み合わせることで,韻律モデリングを改善することを提案する。
実験結果から,細調整されたBERTモデルと事前訓練されたFastSpeech 2の両方が,特に構造的に複雑な文の韻律を改善できることが示唆された。
論文 参考訳(メタデータ) (2021-11-15T05:58:29Z) - SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text
Joint Pre-Training [33.02912456062474]
我々は、ラベルなしテキストのBERT目的とラベルなし音声のw2v-BERT目的とを併用した単一のエンコーダを構築する。
プレトレーニング中に音声データとテキストデータの両方を組み込むことで、CoVoST2音声翻訳における下流品質が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2021-10-20T00:59:36Z) - Improving Prosody Modelling with Cross-Utterance BERT Embeddings for
End-to-end Speech Synthesis [39.869097209615724]
事前訓練されたBERTモデルにより抽出された文埋め込みに基づいて、追加のCUエンコーダにより、CUコンテキストベクトルを生成する。
また, 近隣の文を変化させることで, 間接的に韻律を制御できることが判明した。
論文 参考訳(メタデータ) (2020-11-06T10:03:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。