Fugu-MT 論文翻訳(概要): Discrete acoustic space for an efficient sampling in neural text-to-speech

論文の概要: Discrete acoustic space for an efficient sampling in neural text-to-speech

arxiv url: http://arxiv.org/abs/2110.12539v1
Date: Sun, 24 Oct 2021 22:15:01 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-26 18:18:44.901255
Title: Discrete acoustic space for an efficient sampling in neural text-to-speech
Title（参考訳）: ニューラルテキスト音声の効率的なサンプリングのための離散音響空間
Authors: Marek Strelec, Jonas Rohnke, Antonio Bonafonte, Mateusz {\L}ajszczak, Trevor Wood
Abstract要約: NTTSのための分割ベクトル量子化器を用いたSVQ-VAEアーキテクチャを提案する。 SVQ-VAEは,VAEモデルとVQ-VAEモデルに対して,統計的に有意な自然性向上を実現していることを示す。
参考スコア（独自算出の注目度）: 9.251723181362362
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present an SVQ-VAE architecture using a split vector quantizer for NTTS, as an enhancement to the well-known VAE and VQ-VAE architectures. Compared to these previous architectures, our proposed model retains the benefits of using an utterance-level bottleneck, while reducing the associated loss of representation power. We train the model on recordings in the highly expressive task-oriented dialogues domain and show that SVQ-VAE achieves a statistically significant improvement in naturalness over the VAE and VQ-VAE models. Furthermore, we demonstrate that the SVQ-VAE acoustic space is predictable from text, reducing the gap between the standard constant vector synthesis and vocoded recordings by 32%.
Abstract（参考訳）: NTTS用分割ベクトル量子化器を用いたSVQ-VAEアーキテクチャを,よく知られたVAEおよびVQ-VAEアーキテクチャの拡張として提案する。従来のアーキテクチャと比較して,提案手法は発話レベルのボトルネックを利用する利点を保ちつつ,表現力の損失を低減させる。我々は,高度に表現力のあるタスク指向対話領域における音声記録を学習し,SVQ-VAEがVAEモデルとVQ-VAEモデルに対して統計的に有意な自然性向上を実現することを示す。さらに,svq-vae音響空間はテキストから予測可能であり,標準定ベクトル合成とvocoded記録とのギャップを32%低減できることを示す。

関連論文リスト

Rethinking VAE: From Continuous to Discrete Representations Without Probabilistic Assumptions [0.0]
本研究では,変分オートエンコーダ(VAE)とベクトル量子変分オートエンコーダ(VQ-VAE)の相互接続を,再構成トレーニングフレームワークを通じて確立する。本稿では,クラスタリングセンターを導入し,データのコンパクト性を高め,適切に定義された潜在空間を確保することを目的とした,VAEライクなトレーニング手法を提案する。 MNIST、CelebA、FashionMNISTのデータセットの実験結果は、滑らかな補間遷移を示すが、曖昧さは持続する。
論文参考訳（メタデータ） (2025-07-23T06:52:00Z)
EQ-VAE: Equivariance Regularized Latent Space for Improved Generative Image Modeling [11.075247758198762]
潜在生成モデルは、イメージを潜在空間に圧縮するためのオートエンコーダに依存し、次いで、潜在分布を学習するための生成モデルが続く。 EQ-VAE(EQ-VAE)は、遅延空間における等式を強制し、再構成品質を劣化させることなく、その複雑さを低減させる単純な正規化手法である。 DiT, SiT, REPA, MaskGITなどの最先端生成モデルの性能を向上し, SD-VAE微調整を5回だけ行うことで, DiT-XL/2上で7回の高速化を実現した。
論文参考訳（メタデータ） (2025-02-13T17:21:51Z)
VQalAttent: a Transparent Speech Generation Pipeline based on Transformer-learned VQ-VAE Latent Space [0.49109372384514843]
VQalAttentは、調整可能な性能と解釈性を備えた偽音声を生成するために設計された軽量モデルである。以上の結果から,VQalAttentが限られた計算資源を持つ可知音声サンプルを生成する能力を示した。
論文参考訳（メタデータ） (2024-11-22T00:21:39Z)
WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling [65.30937248905958]
言語モデルの重要な構成要素は、高次元の自然信号を低次元の離散トークンに圧縮するトークン化器である。本稿では,従来の音響領域におけるSOTA音響モデルよりもいくつかの利点があるWavTokenizerを紹介する。 WavTokenizerは、優れたUTMOSスコアを持つ最先端の再構築品質を実現し、本質的によりリッチなセマンティック情報を含んでいる。
論文参考訳（メタデータ） (2024-08-29T13:43:36Z)
Autoregressive Speech Synthesis without Vector Quantization [135.4776759536272]
We present MELLE, a novel continuous-valued token based language modeling approach for text-to-speech synthesis (TTS)。 MELLEはテキスト条件から直接連続メル-スペクトログラムフレームを自動回帰生成する。 MELLEは、サンプリングベクトル量子化符号の固有の欠陥を回避し、ロバスト性問題を緩和する。
論文参考訳（メタデータ） (2024-07-11T14:36:53Z)
Self-Supervised Speech Quality Estimation and Enhancement Using Only Clean Speech [50.95292368372455]
ベクトル量子化変分オートエンコーダ(VQ-VAE)の量子化誤差に基づく音声評価のための自己教師付きメトリックであるVQScoreを提案する。 VQ-VAEのトレーニングはクリーン音声に依存するため、音声が歪んだときに大きな量子化誤差が期待できる。また,ベクトル量子化機構は,自己教師付き音声強調(SE)モデルトレーニングにも有効であることがわかった。
論文参考訳（メタデータ） (2024-02-26T06:01:38Z)
Speech Modeling with a Hierarchical Transformer Dynamical VAE [23.847366888695266]
階層変換器DVAE(HiT-DVAE)を用いた音声信号のモデル化を提案する。本稿では,HT-DVAEが音声スペクトログラムモデリングにおける他のDVAEよりも優れており,訓練手順が簡単であることを示す。
論文参考訳（メタデータ） (2023-03-07T13:35:45Z)
Vector Quantized Wasserstein Auto-Encoder [57.29764749855623]
生成的視点から深層離散表現を学習する。我々は,コードワード列上の離散分布を付与し,コードワード列上の分布をデータ分布に伝達する決定論的デコーダを学習する。 WS 距離のクラスタリングの観点と結びつけて,より優れた,より制御可能なクラスタリングソリューションを実現するための,さらなる理論を開発しています。
論文参考訳（メタデータ） (2023-02-12T13:51:36Z)
Unsupervised Speech Enhancement using Dynamical Variational Auto-Encoders [29.796695365217893]
動的変分自動エンコーダ(Dynamical Variational Auto-Encoders, DVAE)は、潜伏変数を持つ深部生成モデルのクラスである。 DVAEの最も一般的な形式に基づく教師なし音声強調アルゴリズムを提案する。音声強調を行うための変分予測最大化アルゴリズムを導出する。
論文参考訳（メタデータ） (2021-06-23T09:48:38Z)
Learning Robust Latent Representations for Controllable Speech Synthesis [0.0]
RTI-VAE(Reordered Transformer with Information reduction VAE)を提案し、異なる潜在変数間の相互情報を最小限に抑える。 RTI-VAEは話者属性のクラスタオーバーラップをLSTM-VAE以上30%,バニラトランスフォーマー-VAE以上7%以上削減することを示した。
論文参考訳（メタデータ） (2021-05-10T15:49:03Z)
Self-Supervised Variational Auto-Encoders [10.482805367361818]
自己教師付き変分自動エンコーダ(self-supervised Variational Auto-Encoder)と呼ばれる新しい生成モデルについて述べる。このモデルのクラスは、目的関数を単純化しながら、条件付きサンプリングと条件なしサンプリングの両方を実行することができる。本稿では,3つのベンチマーク画像データ(Cifar10, Imagenette64, CelebA)に対する提案手法の性能について述べる。
論文参考訳（メタデータ） (2020-10-05T13:42:28Z)
Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文参考訳（メタデータ） (2020-09-06T13:01:06Z)
DiscreTalk: Text-to-Speech as a Machine Translation Problem [52.33785857500754]
本稿ではニューラルマシン翻訳(NMT)に基づくエンドツーエンドテキスト音声合成(E2E-TTS)モデルを提案する。提案モデルは,非自己回帰ベクトル量子化変分オートエンコーダ(VQ-VAE)モデルと自己回帰トランスフォーマー-NMTモデルという2つのコンポーネントから構成される。
論文参考訳（メタデータ） (2020-05-12T02:45:09Z)
Improve Variational Autoencoder for Text Generationwith Discrete Latent Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。 VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文参考訳（メタデータ） (2020-04-22T14:41:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。