論文の概要: Adapitch: Adaption Multi-Speaker Text-to-Speech Conditioned on Pitch
Disentangling with Untranscribed Data
- arxiv url: http://arxiv.org/abs/2210.13803v1
- Date: Tue, 25 Oct 2022 07:21:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 15:32:30.952155
- Title: Adapitch: Adaption Multi-Speaker Text-to-Speech Conditioned on Pitch
Disentangling with Untranscribed Data
- Title(参考訳): アダプッチ:非転写データを用いたピッチアンタングリングに基づく適応型多話者テキスト音声合成
- Authors: Xulong Zhang, Jianzong Wang, Ning Cheng, Jing Xiao
- Abstract要約: Adapitch は、教師付きモジュールを非転写データで適応させるマルチスピーカ TTS 方式である。
我々は、テキストエンコーダとメルデコーダを非転写データで別々に訓練するために、2つの自己教師付きモジュールを設計する。
実験の結果、Adaptichはベースライン法よりもはるかに優れた品質を達成できた。
- 参考スコア(独自算出の注目度): 32.731900584216724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we proposed Adapitch, a multi-speaker TTS method that makes
adaptation of the supervised module with untranscribed data. We design two self
supervised modules to train the text encoder and mel decoder separately with
untranscribed data to enhance the representation of text and mel. To better
handle the prosody information in a synthesized voice, a supervised TTS module
is designed conditioned on content disentangling of pitch, text, and speaker.
The training phase was separated into two parts, pretrained and fixed the text
encoder and mel decoder with unsupervised mode, then the supervised mode on the
disentanglement of TTS. Experiment results show that the Adaptich achieved much
better quality than baseline methods.
- Abstract(参考訳): 本稿では,教師付きモジュールを非書き起こしデータに適応させるマルチスピーカーtts法であるadapitchを提案する。
テキストエンコーダとmelデコーダを分離して学習するための2つの自己教師付きモジュールを設計し,テキストとmelの表現を強化する。
合成音声における韻律情報をよりうまく処理するために、ピッチ、テキスト、スピーカーのコンテントアングルに基づいて教師付きttsモジュールを設計する。
トレーニングフェーズは2つの部分に分けられ、テキストエンコーダとメルデコーダを教師なしモードで事前訓練し、それからTSの非教師付きモードで固定した。
実験の結果,adaptichはベースライン法よりもはるかに優れた品質を達成した。
関連論文リスト
- Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - M-Adapter: Modality Adaptation for End-to-End Speech-to-Text Translation [66.92823764664206]
テキストに音声表現を適応させる新しいトランスフォーマーベースのモジュールであるM-Adapterを提案する。
音声シーケンスを縮小しながら、M-Adapterは音声からテキストへの翻訳に必要な機能を生成する。
実験の結果,我々のモデルは最大1BLEUで強いベースラインを達成できた。
論文 参考訳(メタデータ) (2022-07-03T04:26:53Z) - Guided-TTS 2: A Diffusion Model for High-quality Adaptive Text-to-Speech
with Untranscribed Data [25.709370310448328]
非転写データを用いた高品質適応型TSのための拡散モデルである Guided-TTS 2 を提案する。
我々は,大規模無転写データセット上で話者条件拡散モデルを訓練し,分類器フリーガイダンス法を提案する。
Guided-TTS 2は、音声品質と話者類似性の観点から、高品質な単一話者TTSベースラインに匹敵する性能を示した。
論文 参考訳(メタデータ) (2022-05-30T18:30:20Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - AdaSpeech 2: Adaptive Text to Speech with Untranscribed Data [115.38309338462588]
AdaSpeech 2 は、未転写音声データのみを適応に利用する適応型 TTS システムである。
具体的には,よく訓練されたttsモデルにmel-spectrogramエンコーダを導入し,音声再構成を行う。
適応では,ttsデコーダのみを微調整し,未書き起こし音声データを用いて音声再構成を行う。
論文 参考訳(メタデータ) (2021-04-20T01:53:30Z) - Improving Prosody Modelling with Cross-Utterance BERT Embeddings for
End-to-end Speech Synthesis [39.869097209615724]
事前訓練されたBERTモデルにより抽出された文埋め込みに基づいて、追加のCUエンコーダにより、CUコンテキストベクトルを生成する。
また, 近隣の文を変化させることで, 間接的に韻律を制御できることが判明した。
論文 参考訳(メタデータ) (2020-11-06T10:03:11Z) - MultiSpeech: Multi-Speaker Text to Speech with Transformer [145.56725956639232]
Transformer-based text to speech (TTS)モデル(Transformer TTSciteli 2019neural, FastSpeechciteren 2019fastspeech)は、RNNベースのモデルよりもトレーニングと推論効率の利点を示している。
我々はMultiSpeechと呼ばれる堅牢で高品質なマルチスピーカトランスフォーマーTSシステムを開発した。
論文 参考訳(メタデータ) (2020-06-08T15:05:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。