論文の概要: Discrete acoustic space for an efficient sampling in neural
text-to-speech
- arxiv url: http://arxiv.org/abs/2110.12539v1
- Date: Sun, 24 Oct 2021 22:15:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 18:18:44.901255
- Title: Discrete acoustic space for an efficient sampling in neural
text-to-speech
- Title(参考訳): ニューラルテキスト音声の効率的なサンプリングのための離散音響空間
- Authors: Marek Strelec, Jonas Rohnke, Antonio Bonafonte, Mateusz {\L}ajszczak,
Trevor Wood
- Abstract要約: NTTSのための分割ベクトル量子化器を用いたSVQ-VAEアーキテクチャを提案する。
SVQ-VAEは,VAEモデルとVQ-VAEモデルに対して,統計的に有意な自然性向上を実現していることを示す。
- 参考スコア(独自算出の注目度): 9.251723181362362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an SVQ-VAE architecture using a split vector quantizer for NTTS,
as an enhancement to the well-known VAE and VQ-VAE architectures. Compared to
these previous architectures, our proposed model retains the benefits of using
an utterance-level bottleneck, while reducing the associated loss of
representation power. We train the model on recordings in the highly expressive
task-oriented dialogues domain and show that SVQ-VAE achieves a statistically
significant improvement in naturalness over the VAE and VQ-VAE models.
Furthermore, we demonstrate that the SVQ-VAE acoustic space is predictable from
text, reducing the gap between the standard constant vector synthesis and
vocoded recordings by 32%.
- Abstract(参考訳): NTTS用分割ベクトル量子化器を用いたSVQ-VAEアーキテクチャを,よく知られたVAEおよびVQ-VAEアーキテクチャの拡張として提案する。
従来のアーキテクチャと比較して,提案手法は発話レベルのボトルネックを利用する利点を保ちつつ,表現力の損失を低減させる。
我々は,高度に表現力のあるタスク指向対話領域における音声記録を学習し,SVQ-VAEがVAEモデルとVQ-VAEモデルに対して統計的に有意な自然性向上を実現することを示す。
さらに,svq-vae音響空間はテキストから予測可能であり,標準定ベクトル合成とvocoded記録とのギャップを32%低減できることを示す。
関連論文リスト
- VQalAttent: a Transparent Speech Generation Pipeline based on Transformer-learned VQ-VAE Latent Space [0.49109372384514843]
VQalAttentは、調整可能な性能と解釈性を備えた偽音声を生成するために設計された軽量モデルである。
以上の結果から,VQalAttentが限られた計算資源を持つ可知音声サンプルを生成する能力を示した。
論文 参考訳(メタデータ) (2024-11-22T00:21:39Z) - WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling [65.30937248905958]
言語モデルの重要な構成要素は、高次元の自然信号を低次元の離散トークンに圧縮するトークン化器である。
本稿では,従来の音響領域におけるSOTA音響モデルよりもいくつかの利点があるWavTokenizerを紹介する。
WavTokenizerは、優れたUTMOSスコアを持つ最先端の再構築品質を実現し、本質的によりリッチなセマンティック情報を含んでいる。
論文 参考訳(メタデータ) (2024-08-29T13:43:36Z) - Self-Supervised Speech Quality Estimation and Enhancement Using Only
Clean Speech [50.95292368372455]
ベクトル量子化変分オートエンコーダ(VQ-VAE)の量子化誤差に基づく音声評価のための自己教師付きメトリックであるVQScoreを提案する。
VQ-VAEのトレーニングはクリーン音声に依存するため、音声が歪んだときに大きな量子化誤差が期待できる。
また,ベクトル量子化機構は,自己教師付き音声強調(SE)モデルトレーニングにも有効であることがわかった。
論文 参考訳(メタデータ) (2024-02-26T06:01:38Z) - Speech Modeling with a Hierarchical Transformer Dynamical VAE [23.847366888695266]
階層変換器DVAE(HiT-DVAE)を用いた音声信号のモデル化を提案する。
本稿では,HT-DVAEが音声スペクトログラムモデリングにおける他のDVAEよりも優れており,訓練手順が簡単であることを示す。
論文 参考訳(メタデータ) (2023-03-07T13:35:45Z) - Vector Quantized Wasserstein Auto-Encoder [57.29764749855623]
生成的視点から深層離散表現を学習する。
我々は,コードワード列上の離散分布を付与し,コードワード列上の分布をデータ分布に伝達する決定論的デコーダを学習する。
WS 距離のクラスタリングの観点と結びつけて,より優れた,より制御可能なクラスタリングソリューションを実現するための,さらなる理論を開発しています。
論文 参考訳(メタデータ) (2023-02-12T13:51:36Z) - Unsupervised Speech Enhancement using Dynamical Variational
Auto-Encoders [29.796695365217893]
動的変分自動エンコーダ(Dynamical Variational Auto-Encoders, DVAE)は、潜伏変数を持つ深部生成モデルのクラスである。
DVAEの最も一般的な形式に基づく教師なし音声強調アルゴリズムを提案する。
音声強調を行うための変分予測最大化アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-06-23T09:48:38Z) - Learning Robust Latent Representations for Controllable Speech Synthesis [0.0]
RTI-VAE(Reordered Transformer with Information reduction VAE)を提案し、異なる潜在変数間の相互情報を最小限に抑える。
RTI-VAEは話者属性のクラスタオーバーラップをLSTM-VAE以上30%,バニラトランスフォーマー-VAE以上7%以上削減することを示した。
論文 参考訳(メタデータ) (2021-05-10T15:49:03Z) - Self-Supervised Variational Auto-Encoders [10.482805367361818]
自己教師付き変分自動エンコーダ(self-supervised Variational Auto-Encoder)と呼ばれる新しい生成モデルについて述べる。
このモデルのクラスは、目的関数を単純化しながら、条件付きサンプリングと条件なしサンプリングの両方を実行することができる。
本稿では,3つのベンチマーク画像データ(Cifar10, Imagenette64, CelebA)に対する提案手法の性能について述べる。
論文 参考訳(メタデータ) (2020-10-05T13:42:28Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - DiscreTalk: Text-to-Speech as a Machine Translation Problem [52.33785857500754]
本稿ではニューラルマシン翻訳(NMT)に基づくエンドツーエンドテキスト音声合成(E2E-TTS)モデルを提案する。
提案モデルは,非自己回帰ベクトル量子化変分オートエンコーダ(VQ-VAE)モデルと自己回帰トランスフォーマー-NMTモデルという2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2020-05-12T02:45:09Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。