論文の概要: Prior-agnostic Multi-scale Contrastive Text-Audio Pre-training for Parallelized TTS Frontend Modeling
- arxiv url: http://arxiv.org/abs/2404.09192v1
- Date: Sun, 14 Apr 2024 08:56:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 15:07:53.718430
- Title: Prior-agnostic Multi-scale Contrastive Text-Audio Pre-training for Parallelized TTS Frontend Modeling
- Title(参考訳): 並列TSフロントエンドモデリングのための事前認識型マルチスケールコントラストテキスト-Audio事前学習
- Authors: Quanxiu Wang, Hui Huang, Mingjie Wang, Yong Dai, Jinzuomu Zhong, Benlai Tang,
- Abstract要約: 本稿では,新たな2段階予測パイプラインであるTAP-FMを提案する。
具体的には,マルチスケールコントラストテキストオーディオ事前学習プロトコル(MC-TAP)を提案する。
本フレームワークは,グローバル・ローカル・テキスト・オーディオ・セマンティクスと音響表現の両方を深く掘り下げる機能を示す。
- 参考スコア(独自算出の注目度): 13.757256085713571
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Over the past decade, a series of unflagging efforts have been dedicated to developing highly expressive and controllable text-to-speech (TTS) systems. In general, the holistic TTS comprises two interconnected components: the frontend module and the backend module. The frontend excels in capturing linguistic representations from the raw text input, while the backend module converts linguistic cues to speech. The research community has shown growing interest in the study of the frontend component, recognizing its pivotal role in text-to-speech systems, including Text Normalization (TN), Prosody Boundary Prediction (PBP), and Polyphone Disambiguation (PD). Nonetheless, the limitations posed by insufficient annotated textual data and the reliance on homogeneous text signals significantly undermine the effectiveness of its supervised learning. To evade this obstacle, a novel two-stage TTS frontend prediction pipeline, named TAP-FM, is proposed in this paper. Specifically, during the first learning phase, we present a Multi-scale Contrastive Text-audio Pre-training protocol (MC-TAP), which hammers at acquiring richer insights via multi-granularity contrastive pre-training in an unsupervised manner. Instead of mining homogeneous features in prior pre-training approaches, our framework demonstrates the ability to delve deep into both global and local text-audio semantic and acoustic representations. Furthermore, a parallelized TTS frontend model is delicately devised to execute TN, PD, and PBP prediction tasks, respectively in the second stage. Finally, extensive experiments illustrate the superiority of our proposed method, achieving state-of-the-art performance.
- Abstract(参考訳): 過去10年間に渡り、高度に表現力のある制御可能な音声合成システム(TTS)の開発に、さまざまな努力が注がれてきた。
一般に、全体的なTSは、フロントエンドモジュールとバックエンドモジュールの2つの相互接続コンポーネントから構成される。
フロントエンドは、原文入力から言語表現を取得するのに優れ、バックエンドモジュールは言語キューを音声に変換する。
研究コミュニティは、テキスト正規化(TN)、韻律境界予測(PBP)、ポリフォン曖昧化(PD)など、テキスト音声合成システムにおけるその重要な役割を認識し、フロントエンドコンポーネントの研究への関心が高まっている。
それでも、注釈付きテキストデータ不足による制約や、同質なテキスト信号への依存は、教師付き学習の有効性を著しく損なう。
本稿では,この障害を回避するために,TAP-FMと呼ばれる新しい2段階TTSフロントエンド予測パイプラインを提案する。
具体的には、第1学習フェーズにおいて、マルチスケールコントラストテキストオーディオ事前学習プロトコル(MC-TAP)を提案する。
事前学習アプローチにおける同質な特徴をマイニングする代わりに、我々のフレームワークはグローバル・ローカル・テキスト・オーディオ・セマンティックスと音響表現の両方を深く掘り下げる能力を示している。
さらに、第2段階でそれぞれTN、PD、BP予測タスクを実行するように、並列化されたTSフロントエンドモデルを微妙に設計する。
最後に,提案手法の優位性を実証し,最先端性能を実現する。
関連論文リスト
- A unified front-end framework for English text-to-speech synthesis [17.254126234872768]
フロントエンドは英語のテキスト音声システムにおいて重要なコンポーネントである。
フロントエンドは通常、テキスト正規化(TN)モジュール、韻律語韻律句(PWPP)モジュール、G2Pモジュールで構成される。
本稿では、英語のTSフロントエンドモジュール間の依存関係をキャプチャする統合フロントエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T02:57:54Z) - Textless Direct Speech-to-Speech Translation with Discrete Speech
Representation [27.182170555234226]
本研究では,テキストの監督なしにエンドツーエンドの直接S2STモデルをトレーニングするための新しいモデルであるTextless Translatotronを提案する。
教師なし音声データで事前訓練された音声エンコーダを両方のモデルに使用すると、提案モデルはトランスラトトロン2とほぼ同等の翻訳品質が得られる。
論文 参考訳(メタデータ) (2022-10-31T19:48:38Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text
Joint Pre-Training [33.02912456062474]
我々は、ラベルなしテキストのBERT目的とラベルなし音声のw2v-BERT目的とを併用した単一のエンコーダを構築する。
プレトレーニング中に音声データとテキストデータの両方を組み込むことで、CoVoST2音声翻訳における下流品質が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2021-10-20T00:59:36Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - ST-BERT: Cross-modal Language Model Pre-training For End-to-end Spoken
Language Understanding [23.367329217151084]
エンドツーエンドの音声言語理解タスクに対処するために,Speech-Text BERT (ST-BERT) と呼ばれる,モーダルな事前学習言語モデルを導入する。
ST-BERTは、音素の後方テキストとサブワードレベルのテキストを入力として、文脈化されたクロスモーダルアライメントを学習する。
提案手法は,ドメイン固有音声テキストペアデータを用いたドメイン適応型事前学習により,さらなるSLU性能向上を示す。
論文 参考訳(メタデータ) (2020-10-23T10:28:20Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z) - Multilingual Denoising Pre-training for Neural Machine Translation [132.66750663226287]
mBART(mBART)は、大規模モノリンガルコーパスで事前訓練されたシーケンスからシーケンスまでの自動エンコーダである。
mBARTは、完全なシーケンス・ツー・シーケンスモデルを事前訓練する最初の方法の1つである。
論文 参考訳(メタデータ) (2020-01-22T18:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。