論文の概要: Cross-Utterance Conditioned VAE for Speech Generation
- arxiv url: http://arxiv.org/abs/2309.04156v1
- Date: Fri, 8 Sep 2023 06:48:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-11 15:56:53.226766
- Title: Cross-Utterance Conditioned VAE for Speech Generation
- Title(参考訳): 音声生成のためのクロス発話条件付きvae
- Authors: Yang Li, Cheng Yu, Guangzhi Sun, Weiqin Zu, Zheng Tian, Ying Wen, Wei
Pan, Chao Zhang, Jun Wang, Yang Yang, Fanglei Sun
- Abstract要約: 本稿では,CUC-VAE S2フレームワークを用いて,韻律の強化と自然な音声生成を実現する。
CUC-VAE TTS for text-to-speech と CUC-VAE SE for speech editor の2つの実用的なアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 27.5887600344053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech synthesis systems powered by neural networks hold promise for
multimedia production, but frequently face issues with producing expressive
speech and seamless editing. In response, we present the Cross-Utterance
Conditioned Variational Autoencoder speech synthesis (CUC-VAE S2) framework to
enhance prosody and ensure natural speech generation. This framework leverages
the powerful representational capabilities of pre-trained language models and
the re-expression abilities of variational autoencoders (VAEs). The core
component of the CUC-VAE S2 framework is the cross-utterance CVAE, which
extracts acoustic, speaker, and textual features from surrounding sentences to
generate context-sensitive prosodic features, more accurately emulating human
prosody generation. We further propose two practical algorithms tailored for
distinct speech synthesis applications: CUC-VAE TTS for text-to-speech and
CUC-VAE SE for speech editing. The CUC-VAE TTS is a direct application of the
framework, designed to generate audio with contextual prosody derived from
surrounding texts. On the other hand, the CUC-VAE SE algorithm leverages real
mel spectrogram sampling conditioned on contextual information, producing audio
that closely mirrors real sound and thereby facilitating flexible speech
editing based on text such as deletion, insertion, and replacement.
Experimental results on the LibriTTS datasets demonstrate that our proposed
models significantly enhance speech synthesis and editing, producing more
natural and expressive speech.
- Abstract(参考訳): ニューラルネットワークを利用した音声合成システムはマルチメディア生産を約束するが、表現力のある音声とシームレスな編集でしばしば問題に直面している。
そこで本研究では,音声合成のためのクロス発話条件付き変分オートエンコーダ(cuc-vae s2)フレームワークを提案する。
このフレームワークは、事前学習された言語モデルの強力な表現能力と変分オートエンコーダ(vaes)の再表現能力を活用する。
CUC-VAE S2フレームワークのコアコンポーネントであるCVAEは、周囲の文から音響、話者、テキストの特徴を抽出し、文脈に敏感な韻律的特徴を生成し、人間の韻律生成をより正確にエミュレートする。
さらに,テキスト合成用CUC-VAE TTSと音声編集用CUC-VAE SEの2つの実用的なアルゴリズムを提案する。
CUC-VAE TTSは、周囲のテキストから派生した文脈的韻律による音声を生成するために設計されたフレームワークの直接的な応用である。
一方、CUC-VAE SEアルゴリズムは、文脈情報に基づく実メルスペクトログラムサンプリングを利用して、実音を忠実に反映した音声を生成し、削除、挿入、置換などのテキストに基づく柔軟な音声編集を容易にする。
LibriTTSデータセットを用いた実験結果から,提案モデルにより音声合成と編集が大幅に向上し,より自然で表現力の高い音声が得られた。
関連論文リスト
- StyleSpeech: Self-supervised Style Enhancing with VQ-VAE-based
Pre-training for Expressive Audiobook Speech Synthesis [63.019962126807116]
音声ブックの合成音声の表現的品質は、一般化されたモデルアーキテクチャとアンバランスなスタイル分布によって制限される。
本稿では,VQ-VAEに基づく音声合成のための事前学習による自己教師付きスタイル向上手法を提案する。
論文 参考訳(メタデータ) (2023-12-19T14:13:26Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - Improving Code-Switching and Named Entity Recognition in ASR with Speech
Editing based Data Augmentation [22.38340990398735]
テキストベースの音声編集モデルを適用して,新たなデータ拡張手法を提案する。
コードスイッチングとNERタスクの実験結果から,提案手法は音声スプライシングとニューラルTSに基づくデータ拡張システムよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-14T15:50:13Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Unsupervised TTS Acoustic Modeling for TTS with Conditional Disentangled Sequential VAE [36.50265124324876]
本稿では,テキストと音声のペアを必要としない,教師なしの音声合成モデルであるUTTSを提案する。
このフレームワークは、話者の持続時間モデル、音色特徴(アイデンティティ)、TTS推論のための内容の柔軟な選択を提供する。
実験により、UTTSは人間と客観的評価によって測定された高い自然性と知性のある音声を合成できることが示されている。
論文 参考訳(メタデータ) (2022-06-06T11:51:22Z) - A$^3$T: Alignment-Aware Acoustic and Text Pretraining for Speech
Synthesis and Editing [31.666920933058144]
本稿では,テキスト入力と音響テキストアライメントによるマスク付き音響信号の再構成を行うアライメント・アウェア・アウェア・アコースティック・テキスト・プレトレーニング(A$3$T)を提案する。
実験では、A$3$Tは、音声編集におけるSOTAモデルよりも優れており、外部話者検証モデルなしでは、マルチスピーカ音声合成を改善する。
論文 参考訳(メタデータ) (2022-03-18T01:36:25Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。