論文の概要: A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech
- arxiv url: http://arxiv.org/abs/2302.04215v1
- Date: Wed, 8 Feb 2023 17:34:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-09 15:27:11.076117
- Title: A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech
- Title(参考訳): 実世界自発音声におけるテキスト音声合成のためのベクトル量子化手法
- Authors: Li-Wei Chen, Shinji Watanabe, Alexander Rudnicky
- Abstract要約: 我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
- 参考スコア(独自算出の注目度): 94.64927912924087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent Text-to-Speech (TTS) systems trained on reading or acted corpora have
achieved near human-level naturalness. The diversity of human speech, however,
often goes beyond the coverage of these corpora. We believe the ability to
handle such diversity is crucial for AI systems to achieve human-level
communication. Our work explores the use of more abundant real-world data for
building speech synthesizers. We train TTS systems using real-world speech from
YouTube and podcasts. We observe the mismatch between training and inference
alignments in mel-spectrogram based autoregressive models, leading to
unintelligible synthesis, and demonstrate that learned discrete codes within
multiple code groups effectively resolves this issue. We introduce our MQTTS
system whose architecture is designed for multiple code generation and
monotonic alignment, along with the use of a clean silence prompt to improve
synthesis quality. We conduct ablation analyses to identify the efficacy of our
methods. We show that MQTTS outperforms existing TTS systems in several
objective and subjective measures.
- Abstract(参考訳): 近年のテキスト・トゥ・スペーチ(TTS)システムでは,人間レベルの自然さに近づいた。
しかし、人間の言論の多様性は、しばしばこれらのコーパスの範囲を超えている。
このような多様性を扱う能力は、人間レベルのコミュニケーションを実現するためにAIシステムにとって不可欠だと考えています。
本研究は,より豊富な実世界データを用いた音声シンセサイザー構築について検討する。
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
mel-spectrogramに基づく自己回帰モデルにおけるトレーニングと推論アライメントのミスマッチを観察し,理解不能な合成を導き,複数のコードグループで学習された離散符号がこの問題を効果的に解決できることを実証した。
本稿では,複数のコード生成とモノトニックアライメントのために設計したmqttsシステムと,合成品質向上のためのクリーンサイレントプロンプトについて紹介する。
本手法の有効性を明らかにするためにアブレーション解析を行う。
MQTTSは既存のTSシステムよりも,いくつかの客観的かつ主観的な尺度で優れていることを示す。
関連論文リスト
- On the Semantic Latent Space of Diffusion-Based Text-to-Speech Models [15.966967200863845]
DDMデノイザの遅延ボトルネックアクティベーションからなる冷凍TSモデルの潜時空間について検討する。
この空間には豊富な意味情報が含まれており、教師なしと教師なしの両方で、その内部の意味的方向を見つけるための新しい方法をいくつか紹介する。
これにより、さらなるトレーニング、アーキテクチャの変更、データ要求なしに、オフザシェルフオーディオ編集が可能になることを実証する。
論文 参考訳(メタデータ) (2024-02-19T16:22:21Z) - Unified speech and gesture synthesis using flow matching [24.2094371314481]
本稿では,テキストから音声とスケルトンに基づく3次元ジェスチャーを共同で合成するための,新しい統一アーキテクチャを提案する。
提案したアーキテクチャは,従来の技術よりもシンプルで,メモリフットプリントが小さく,音声とジェスチャーの同時分布を捉えることができる。
論文 参考訳(メタデータ) (2023-10-08T14:37:28Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - Diff-TTSG: Denoising probabilistic integrated speech and gesture
synthesis [19.35266496960533]
本稿では,Diff-TTSGと呼ばれる拡散型確率モデルについて述べる。
本稿では,統合音声とジェスチャー合成システムを評価するための,一様・多様主観的一様・多様主観的テストのセットについて述べる。
論文 参考訳(メタデータ) (2023-06-15T18:02:49Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - UTTS: Unsupervised TTS with Conditional Disentangled Sequential
Variational Auto-encoder [30.376259456529368]
TTS音響モデリング(AM)のためのテキストオーディオペアを必要としない、教師なし音声合成(UTTS)フレームワークを提案する。
このフレームワークは、話者の持続時間モデル、音色特徴(アイデンティティ)、TTS推論のための内容の柔軟な選択を提供する。
実験により、UTTSは人間と客観的評価によって測定された高い自然性と知性のある音声を合成できることが示されている。
論文 参考訳(メタデータ) (2022-06-06T11:51:22Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Spoken Style Learning with Multi-modal Hierarchical Context Encoding for
Conversational Text-to-Speech Synthesis [59.27994987902646]
歴史的会話から話し言葉のスタイルを学習する研究は、まだ初期段階にある。
歴史的会話の書き起こしのみが考慮され、歴史的スピーチの話し方を無視している。
マルチモーダル階層型コンテキスト符号化を用いた音声スタイル学習手法を提案する。
論文 参考訳(メタデータ) (2021-06-11T08:33:52Z) - Synth2Aug: Cross-domain speaker recognition with TTS synthesized speech [8.465993273653554]
話者認識を支援するために,多話者テキスト音声合成システムを用いて音声合成を行う。
我々は、TTS合成音声がクロスドメイン話者認識性能を向上させることをデータセット上で観察する。
また,TTS合成に使用するテキストの異なるタイプの有効性についても検討する。
論文 参考訳(メタデータ) (2020-11-24T00:48:54Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。