論文の概要: VQalAttent: a Transparent Speech Generation Pipeline based on Transformer-learned VQ-VAE Latent Space
- arxiv url: http://arxiv.org/abs/2411.14642v1
- Date: Fri, 22 Nov 2024 00:21:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 15:02:43.127372
- Title: VQalAttent: a Transparent Speech Generation Pipeline based on Transformer-learned VQ-VAE Latent Space
- Title(参考訳): VQalAttent:変圧器学習VQ-VAE潜時空間に基づく透明音声生成パイプライン
- Authors: Armani Rodriguez, Silvija Kokalj-Filipovic,
- Abstract要約: VQalAttentは、調整可能な性能と解釈性を備えた偽音声を生成するために設計された軽量モデルである。
以上の結果から,VQalAttentが限られた計算資源を持つ可知音声サンプルを生成する能力を示した。
- 参考スコア(独自算出の注目度): 0.49109372384514843
- License:
- Abstract: Generating high-quality speech efficiently remains a key challenge for generative models in speech synthesis. This paper introduces VQalAttent, a lightweight model designed to generate fake speech with tunable performance and interpretability. Leveraging the AudioMNIST dataset, consisting of human utterances of decimal digits (0-9), our method employs a two-step architecture: first, a scalable vector quantized autoencoder (VQ-VAE) that compresses audio spectrograms into discrete latent representations, and second, a decoder-only transformer that learns the probability model of these latents. Trained transformer generates similar latent sequences, convertible to audio spectrograms by the VQ-VAE decoder, from which we generate fake utterances. Interpreting statistical and perceptual quality of the fakes, depending on the dimension and the extrinsic information of the latent space, enables guided improvements in larger, commercial generative models. As a valuable tool for understanding and refining audio synthesis, our results demonstrate VQalAttent's capacity to generate intelligible speech samples with limited computational resources, while the modularity and transparency of the training pipeline helps easily correlate the analytics with modular modifications, hence providing insights for the more complex models.
- Abstract(参考訳): 高品質な音声を効率的に生成することは、音声合成における生成モデルにとって重要な課題である。
本稿では,疑似音声を生成する軽量モデルであるVQalAttentについて述べる。
まず,音響スペクトルを離散潜在表現に圧縮するスケーラブルなベクトル量子化オートエンコーダ(VQ-VAE)と,その確率モデルを学習するデコーダのみの変換器である。
訓練された変換器は、VQ-VAEデコーダによって音声スペクトログラムに変換可能な類似の潜時シーケンスを生成し、そこから偽の発話を生成する。
偽物の統計的および知覚的品質の解釈は、潜在空間の次元と外在情報に依存するため、より大型で商業的な生成モデルにおけるガイド付き改善を可能にしている。
音声合成の理解と精細化のための貴重なツールとして,VQalAttentが限られた計算資源で理解不能な音声サンプルを生成する能力を示した。
関連論文リスト
- VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - Learning and controlling the source-filter representation of speech with
a variational autoencoder [23.05989605017053]
音声処理において、音源フィルタモデルは、音声信号はいくつかの独立的かつ物理的に有意な連続潜伏因子から生成されるとみなす。
本稿では,潜在部分空間内の音源-フィルタ音声要素を高精度かつ独立に制御する手法を提案する。
テキストや人ラベルデータなどの追加情報を必要としないため、音声スペクトログラムの深い生成モデルが得られる。
論文 参考訳(メタデータ) (2022-04-14T16:13:06Z) - Discrete Acoustic Space for an Efficient Sampling in Neural
Text-To-Speech [5.857339910247513]
NTTS用スプリットベクトル量子化変分オートエンコーダ(SVQ-VAE)アーキテクチャを提案する。
SVQ-VAE潜在音響空間はテキストから予測可能であることを示す。
論文 参考訳(メタデータ) (2021-10-24T22:15:01Z) - Learning Robust Latent Representations for Controllable Speech Synthesis [0.0]
RTI-VAE(Reordered Transformer with Information reduction VAE)を提案し、異なる潜在変数間の相互情報を最小限に抑える。
RTI-VAEは話者属性のクラスタオーバーラップをLSTM-VAE以上30%,バニラトランスフォーマー-VAE以上7%以上削減することを示した。
論文 参考訳(メタデータ) (2021-05-10T15:49:03Z) - Any-to-One Sequence-to-Sequence Voice Conversion using Self-Supervised
Discrete Speech Representations [49.55361944105796]
シーケンス・ツー・シーケンス・フレームワークにおいて,任意のA2O音声変換(VC)に対して新しいアプローチを提案する。
A2O VCは、トレーニング中に目に見えないものを含むあらゆる話者を、固定されたターゲットスピーカーに変換することを目指している。
論文 参考訳(メタデータ) (2020-10-23T08:34:52Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z) - DiscreTalk: Text-to-Speech as a Machine Translation Problem [52.33785857500754]
本稿ではニューラルマシン翻訳(NMT)に基づくエンドツーエンドテキスト音声合成(E2E-TTS)モデルを提案する。
提案モデルは,非自己回帰ベクトル量子化変分オートエンコーダ(VQ-VAE)モデルと自己回帰トランスフォーマー-NMTモデルという2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2020-05-12T02:45:09Z) - Multiresolution and Multimodal Speech Recognition with Transformers [22.995102995029576]
本稿ではトランスフォーマーアーキテクチャを用いた音声視覚自動音声認識(AV-ASR)システムを提案する。
我々は、視覚情報によって提供されるシーンコンテキストに着目して、ASRを接地する。
私たちの結果は、最先端のListen、Attend、Spellベースのアーキテクチャに匹敵します。
論文 参考訳(メタデータ) (2020-04-29T09:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。