論文の概要: Unsupervised Pre-Training For Data-Efficient Text-to-Speech On Low
Resource Languages
- arxiv url: http://arxiv.org/abs/2303.15669v1
- Date: Tue, 28 Mar 2023 01:26:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 16:50:22.677530
- Title: Unsupervised Pre-Training For Data-Efficient Text-to-Speech On Low
Resource Languages
- Title(参考訳): 低リソース言語におけるデータ効率の良いテキスト音声の教師なし事前学習
- Authors: Seongyeon Park, Myungseo Song, Bohyung Kim and Tae-Hyun Oh
- Abstract要約: そこで本研究では,大容量の非転写音声データを利用したシーケンス・ツー・シーケンスTSモデルの教師なし事前学習手法を提案する。
主なアイデアは、歪んだものから切り離されたメル・スペクトログラムを再構築するモデルを事前訓練することである。
低リソース言語シナリオにおける提案手法の有効性を実証的に実証した。
- 参考スコア(独自算出の注目度): 15.32264927462068
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Neural text-to-speech (TTS) models can synthesize natural human speech when
trained on large amounts of transcribed speech. However, collecting such
large-scale transcribed data is expensive. This paper proposes an unsupervised
pre-training method for a sequence-to-sequence TTS model by leveraging large
untranscribed speech data. With our pre-training, we can remarkably reduce the
amount of paired transcribed data required to train the model for the target
downstream TTS task. The main idea is to pre-train the model to reconstruct
de-warped mel-spectrograms from warped ones, which may allow the model to learn
proper temporal assignment relation between input and output sequences. In
addition, we propose a data augmentation method that further improves the data
efficiency in fine-tuning. We empirically demonstrate the effectiveness of our
proposed method in low-resource language scenarios, achieving outstanding
performance compared to competing methods. The code and audio samples are
available at: https://github.com/cnaigithub/SpeechDewarping
- Abstract(参考訳): ニューラルテキスト音声モデル(TTS)は、大量の転写音声で訓練されたときに、自然な人間の音声を合成することができる。
しかし、このような大規模な転写データの収集は高価である。
本稿では,大規模音声データを利用したシーケンス・ツー・シーケンスTSモデルの教師なし事前学習手法を提案する。
事前トレーニングを行うことで、ターゲット下流TSタスクのモデルをトレーニングするために必要なペア書き起こしデータの量を大幅に削減できる。
主なアイデアは、非ワープされたメル-スペクトログラムを歪んだものから再構成するためにモデルを事前訓練することであり、入力シーケンスと出力シーケンスの間の適切な時間的割り当て関係を学習することができる。
さらに,微調整におけるデータ効率をさらに向上するデータ拡張手法を提案する。
提案手法の低リソース言語シナリオにおける有効性を実証的に実証し,競合する手法と比較して優れた性能を実現する。
コードとオーディオのサンプルは、https://github.com/cnaigithub/speechdewarpingで入手できる。
関連論文リスト
- Scaling Speech-Text Pre-training with Synthetic Interleaved Data [31.77653849518526]
音声言語モデル(SpeechLM)は音声入力を受け入れ、音声出力を生成し、より自然な人間とコンピュータの相互作用を可能にする。
従来のSpeechLMの開発手法は、教師なし音声データとパラレル音声テキストデータの可用性の制限によって制約されている。
本稿では,テキストコーパスから得られた大規模合成インターリーブデータを活用することによって,音声テキスト事前学習のスケールアップを行う手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T17:19:09Z) - Multi-modal Adversarial Training for Zero-Shot Voice Cloning [9.823246184635103]
実音声特徴と生成音声特徴を条件付きで識別するトランスフォーマーエンコーダデコーダアーキテクチャを提案する。
我々は、FastSpeech2音響モデルに適用し、大規模マルチスピーカーデータセットであるLibriheavyのトレーニングを行うことにより、新しい対角訓練手法を導入する。
本モデルは,音声品質と話者類似度の観点から,ベースラインに対する改善を実現する。
論文 参考訳(メタデータ) (2024-08-28T16:30:41Z) - SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。
SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。
我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-08-25T17:07:39Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - Textually Pretrained Speech Language Models [107.10344535390956]
本稿では、事前訓練されたテキスト言語モデルからウォームスタートを用いたSpeechLMの訓練方法であるTWISTを提案する。
我々は、TWISTがボード全体のコールドスタートSpeechLMより優れる自動評価と人的評価の両方を用いて示す。
論文 参考訳(メタデータ) (2023-05-22T13:12:16Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - A Complementary Joint Training Approach Using Unpaired Speech and Text
for Low-Resource Automatic Speech Recognition [25.473191378558138]
非ペアデータを利用して、一般的なシーケンス・ツー・シーケンスモデルをトレーニングする。
音声-疑似ラベルペアと合成音声テキストペアの相補性に着想を得て,補足的関節訓練(CJT)法を提案する。
論文 参考訳(メタデータ) (2022-04-05T07:02:53Z) - Guided-TTS:Text-to-Speech with Untranscribed Speech [22.548875263927396]
我々は、未転写音声データから音声を生成することを学習する高品質TTSモデルである Guided-TTS を提案する。
音声合成において,無条件DDPMの生成過程を音素分類を用いて導き,メル-スペクトログラムを生成する。
論文 参考訳(メタデータ) (2021-11-23T10:05:05Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。