論文の概要: Predicting phoneme-level prosody latents using AR and flow-based Prior
Networks for expressive speech synthesis
- arxiv url: http://arxiv.org/abs/2211.01327v1
- Date: Wed, 2 Nov 2022 17:45:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 12:43:58.656800
- Title: Predicting phoneme-level prosody latents using AR and flow-based Prior
Networks for expressive speech synthesis
- Title(参考訳): 表現型音声合成のためのARとフローベース事前ネットワークを用いた音素レベル韻律予測
- Authors: Konstantinos Klapsas, Karolos Nikitaras, Nikolaos Ellinas, June Sig
Sung, Inchul Hwang, Spyros Raptis, Aimilios Chalamandaris, Pirros Tsiakoulis
- Abstract要約: フローに基づく事前ネットワークの正規化は,品質の低下を犠牲にして,より表現力の高い音声が得られることを示す。
また,フローベースモデルと比較して表現性や変動性は低いものの,高品質な音声を生成できる動的VAEモデルを提案する。
- 参考スコア(独自算出の注目度): 3.6159128762538018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A large part of the expressive speech synthesis literature focuses on
learning prosodic representations of the speech signal which are then modeled
by a prior distribution during inference. In this paper, we compare different
prior architectures at the task of predicting phoneme level prosodic
representations extracted with an unsupervised FVAE model. We use both
subjective and objective metrics to show that normalizing flow based prior
networks can result in more expressive speech at the cost of a slight drop in
quality. Furthermore, we show that the synthesized speech has higher
variability, for a given text, due to the nature of normalizing flows. We also
propose a Dynamical VAE model, that can generate higher quality speech although
with decreased expressiveness and variability compared to the flow based
models.
- Abstract(参考訳): 表現論的音声合成文学の大部分は、推論中に事前分布によってモデル化された音声信号の韻律表現の学習に焦点を当てている。
本稿では,教師なしFVAEモデルを用いて抽出した音素レベルの韻律表現を予測するタスクにおいて,事前アーキテクチャの比較を行う。
主観的および客観的な指標を用いて、フローに基づく事前ネットワークの正規化が、品質の低下を犠牲にして、より表現力のある発話をもたらすことを示す。
さらに, 合成音声は, 正規化フローの性質から, 与えられたテキストに対して高い可変性を有することを示す。
また,フローベースモデルと比較して表現性や変動性は低下するが,高品質な音声を生成できる動的vaeモデルを提案する。
関連論文リスト
- Investigating Disentanglement in a Phoneme-level Speech Codec for Prosody Modeling [39.80957479349776]
本稿では,RVQ-VAEモデルの離散空間の韻律モデリング機能について検討し,音素レベルでの操作を可能とした。
音素レベルの離散潜在表現は, 頑健かつ伝達可能な微細な韻律情報を捕捉し, 高いアンタングル化を実現することを示す。
論文 参考訳(メタデータ) (2024-09-13T09:27:05Z) - uSee: Unified Speech Enhancement and Editing with Conditional Diffusion
Models [57.71199494492223]
本稿では,条件付き拡散モデルを用いた統一音声強調編集(uSee)モデルを提案する。
実験の結果,提案したuSeeモデルは,他の生成的音声強調モデルと比較して,発声および発声の双方において優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-02T04:36:39Z) - A Discourse-level Multi-scale Prosodic Model for Fine-grained Emotion
Analysis [19.271542595753267]
本稿では、談話レベルのテキストから詳細な感情分析を行うための適切な韻律的特徴の予測について検討する。
本稿では,これらの2つの韻律的特徴を予測するために,多スケールテキストを利用したD-MPM(D-MPM)を提案する。
論文 参考訳(メタデータ) (2023-09-21T07:45:44Z) - Bridging Speech and Textual Pre-trained Models with Unsupervised ASR [70.61449720963235]
この研究は、音声とテキストによる事前学習モデルを結ぶ、シンプルで効率的な教師なしのパラダイムを提案する。
教師なし自動音声認識(ASR)は、音声自己教師モデルから表現を改善することができることを示す。
特に、音声による質問応答では、挑戦的なNMSQAベンチマークよりも最先端の結果に到達しています。
論文 参考訳(メタデータ) (2022-11-06T04:50:37Z) - A Systematic Comparison of Phonetic Aware Techniques for Speech
Enhancement [20.329872147913584]
音声強調モデルにおける音声情報の統合方法の比較を行った。
異なる音声コンテンツモデルと様々な特徴注入技術が性能向上に与える影響を観察する。
論文 参考訳(メタデータ) (2022-06-22T12:00:50Z) - Fine-grained Noise Control for Multispeaker Speech Synthesis [3.449700218265025]
テキスト音声モデル(TTS)は、典型的には、内容、話者、韻律などの音声属性を非絡み合い表現に分解する。
近年の課題は, 音響条件を的確にモデル化することであり, 主要な音声要因を解消することである。
論文 参考訳(メタデータ) (2022-04-11T13:13:55Z) - ProsoSpeech: Enhancing Prosody With Quantized Vector Pre-training in
Text-to-Speech [96.0009517132463]
音声の低周波帯域を定量化し、潜在韻律ベクトル(LPV)における韻律特性を圧縮する単語レベル韻律エンコーダを提案する。
次に、LPV予測器を導入し、与えられた単語列を予測し、高品質なTSデータセットで微調整する。
実験結果から, ProsoSpeechはベースライン法と比較してよりリッチな韻律で音声を生成することができることがわかった。
論文 参考訳(メタデータ) (2022-02-16T01:42:32Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Hierarchical Prosody Modeling for Non-Autoregressive Speech Synthesis [76.39883780990489]
我々は,異なる韻律モデル設定下での非自己回帰的TSモデルの挙動を解析する。
本稿では,音素レベルの韻律的特徴を単語レベルの韻律的特徴に基づいて予測する階層的アーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-12T16:16:41Z) - Generating diverse and natural text-to-speech samples using a quantized
fine-grained VAE and auto-regressive prosody prior [53.69310441063162]
本稿では,より自然な音響サンプルを生成できる離散潜在空間における逐次前処理を提案する。
本研究では,聴取試験,自動音声認識(ASR)性能の客観的指標,韻律特性の測定によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T12:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。