論文の概要: Discrete Acoustic Space for an Efficient Sampling in Neural
Text-To-Speech
- arxiv url: http://arxiv.org/abs/2110.12539v3
- Date: Thu, 14 Sep 2023 12:34:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 20:10:55.779314
- Title: Discrete Acoustic Space for an Efficient Sampling in Neural
Text-To-Speech
- Title(参考訳): ニューラルテキスト音声における効率的なサンプリングのための離散音響空間
- Authors: Marek Strong, Jonas Rohnke, Antonio Bonafonte, Mateusz {\L}ajszczak,
Trevor Wood
- Abstract要約: NTTS用スプリットベクトル量子化変分オートエンコーダ(SVQ-VAE)アーキテクチャを提案する。
SVQ-VAE潜在音響空間はテキストから予測可能であることを示す。
- 参考スコア(独自算出の注目度): 5.857339910247513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a Split Vector Quantized Variational Autoencoder (SVQ-VAE)
architecture using a split vector quantizer for NTTS, as an enhancement to the
well-known Variational Autoencoder (VAE) and Vector Quantized Variational
Autoencoder (VQ-VAE) architectures. Compared to these previous architectures,
our proposed model retains the benefits of using an utterance-level bottleneck,
while keeping significant representation power and a discretized latent space
small enough for efficient prediction from text. We train the model on
recordings in the expressive task-oriented dialogues domain and show that
SVQ-VAE achieves a statistically significant improvement in naturalness over
the VAE and VQ-VAE models. Furthermore, we demonstrate that the SVQ-VAE latent
acoustic space is predictable from text, reducing the gap between the standard
constant vector synthesis and vocoded recordings by 32%.
- Abstract(参考訳): 本稿では、NTTS用分割ベクトル量子化器(SVQ-VAE)アーキテクチャを、よく知られた変分オートエンコーダ(VAE)とVector量子化変分オートエンコーダ(VQ-VAE)アーキテクチャの拡張として提案する。
従来のアーキテクチャと比較して,提案モデルでは,テキストから効率的に予測できるほど,表現力と離散化された潜在空間を保ちながら,発話レベルのボトルネックを利用する利点を保っている。
VQ-VAEは,VAEモデルとVQ-VAEモデルに比較して,統計的に有意な自然性向上を実現していることを示す。
さらに, SVQ-VAE潜在音響空間はテキストから予測可能であり, 標準定数ベクトル合成とボコード記録とのギャップを32%削減できることを示した。
関連論文リスト
- VQalAttent: a Transparent Speech Generation Pipeline based on Transformer-learned VQ-VAE Latent Space [0.49109372384514843]
VQalAttentは、調整可能な性能と解釈性を備えた偽音声を生成するために設計された軽量モデルである。
以上の結果から,VQalAttentが限られた計算資源を持つ可知音声サンプルを生成する能力を示した。
論文 参考訳(メタデータ) (2024-11-22T00:21:39Z) - WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling [65.30937248905958]
言語モデルの重要な構成要素は、高次元の自然信号を低次元の離散トークンに圧縮するトークン化器である。
本稿では,従来の音響領域におけるSOTA音響モデルよりもいくつかの利点があるWavTokenizerを紹介する。
WavTokenizerは、優れたUTMOSスコアを持つ最先端の再構築品質を実現し、本質的によりリッチなセマンティック情報を含んでいる。
論文 参考訳(メタデータ) (2024-08-29T13:43:36Z) - Self-Supervised Speech Quality Estimation and Enhancement Using Only
Clean Speech [50.95292368372455]
ベクトル量子化変分オートエンコーダ(VQ-VAE)の量子化誤差に基づく音声評価のための自己教師付きメトリックであるVQScoreを提案する。
VQ-VAEのトレーニングはクリーン音声に依存するため、音声が歪んだときに大きな量子化誤差が期待できる。
また,ベクトル量子化機構は,自己教師付き音声強調(SE)モデルトレーニングにも有効であることがわかった。
論文 参考訳(メタデータ) (2024-02-26T06:01:38Z) - Speech Modeling with a Hierarchical Transformer Dynamical VAE [23.847366888695266]
階層変換器DVAE(HiT-DVAE)を用いた音声信号のモデル化を提案する。
本稿では,HT-DVAEが音声スペクトログラムモデリングにおける他のDVAEよりも優れており,訓練手順が簡単であることを示す。
論文 参考訳(メタデータ) (2023-03-07T13:35:45Z) - Vector Quantized Wasserstein Auto-Encoder [57.29764749855623]
生成的視点から深層離散表現を学習する。
我々は,コードワード列上の離散分布を付与し,コードワード列上の分布をデータ分布に伝達する決定論的デコーダを学習する。
WS 距離のクラスタリングの観点と結びつけて,より優れた,より制御可能なクラスタリングソリューションを実現するための,さらなる理論を開発しています。
論文 参考訳(メタデータ) (2023-02-12T13:51:36Z) - Unsupervised Speech Enhancement using Dynamical Variational
Auto-Encoders [29.796695365217893]
動的変分自動エンコーダ(Dynamical Variational Auto-Encoders, DVAE)は、潜伏変数を持つ深部生成モデルのクラスである。
DVAEの最も一般的な形式に基づく教師なし音声強調アルゴリズムを提案する。
音声強調を行うための変分予測最大化アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-06-23T09:48:38Z) - Learning Robust Latent Representations for Controllable Speech Synthesis [0.0]
RTI-VAE(Reordered Transformer with Information reduction VAE)を提案し、異なる潜在変数間の相互情報を最小限に抑える。
RTI-VAEは話者属性のクラスタオーバーラップをLSTM-VAE以上30%,バニラトランスフォーマー-VAE以上7%以上削減することを示した。
論文 参考訳(メタデータ) (2021-05-10T15:49:03Z) - Self-Supervised Variational Auto-Encoders [10.482805367361818]
自己教師付き変分自動エンコーダ(self-supervised Variational Auto-Encoder)と呼ばれる新しい生成モデルについて述べる。
このモデルのクラスは、目的関数を単純化しながら、条件付きサンプリングと条件なしサンプリングの両方を実行することができる。
本稿では,3つのベンチマーク画像データ(Cifar10, Imagenette64, CelebA)に対する提案手法の性能について述べる。
論文 参考訳(メタデータ) (2020-10-05T13:42:28Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - DiscreTalk: Text-to-Speech as a Machine Translation Problem [52.33785857500754]
本稿ではニューラルマシン翻訳(NMT)に基づくエンドツーエンドテキスト音声合成(E2E-TTS)モデルを提案する。
提案モデルは,非自己回帰ベクトル量子化変分オートエンコーダ(VQ-VAE)モデルと自己回帰トランスフォーマー-NMTモデルという2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2020-05-12T02:45:09Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。