論文の概要: Speech Modeling with a Hierarchical Transformer Dynamical VAE
- arxiv url: http://arxiv.org/abs/2303.09404v2
- Date: Wed, 10 May 2023 13:55:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 16:29:29.002871
- Title: Speech Modeling with a Hierarchical Transformer Dynamical VAE
- Title(参考訳): 階層型変圧器力学vaeによる音声モデリング
- Authors: Xiaoyu Lin, Xiaoyu Bie, Simon Leglaive, Laurent Girin, Xavier
Alameda-Pineda
- Abstract要約: 階層変換器DVAE(HiT-DVAE)を用いた音声信号のモデル化を提案する。
本稿では,HT-DVAEが音声スペクトログラムモデリングにおける他のDVAEよりも優れており,訓練手順が簡単であることを示す。
- 参考スコア(独自算出の注目度): 23.847366888695266
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The dynamical variational autoencoders (DVAEs) are a family of
latent-variable deep generative models that extends the VAE to model a sequence
of observed data and a corresponding sequence of latent vectors. In almost all
the DVAEs of the literature, the temporal dependencies within each sequence and
across the two sequences are modeled with recurrent neural networks. In this
paper, we propose to model speech signals with the Hierarchical Transformer
DVAE (HiT-DVAE), which is a DVAE with two levels of latent variable
(sequence-wise and frame-wise) and in which the temporal dependencies are
implemented with the Transformer architecture. We show that HiT-DVAE
outperforms several other DVAEs for speech spectrogram modeling, while enabling
a simpler training procedure, revealing its high potential for downstream
low-level speech processing tasks such as speech enhancement.
- Abstract(参考訳): 動的変分オートエンコーダ(DVAEs)は、VAEを拡張して観測データのシーケンスとそれに対応する潜時ベクトルのシーケンスをモデル化する潜時可変深部生成モデルのファミリーである。
文献のほとんど全てのDVAEにおいて、各シーケンスと2つのシーケンス間の時間的依存関係は、繰り返しニューラルネットワークでモデル化される。
本稿では,2段階の潜在変数(列方向とフレーム方向)を持つdvaeである階層的トランスフォーマーdvae(hit-dvae)を用いて音声信号のモデル化を行い,その時間依存性をトランスフォーマーアーキテクチャで実装することを提案する。
我々は,HT-DVAEが音声スペクトログラムモデリングにおける他のDVAEよりも優れており,より簡単な訓練手順を実現し,音声強調などの低レベル音声処理タスクの低レベル化の可能性を明らかにした。
関連論文リスト
- PRformer: Pyramidal Recurrent Transformer for Multivariate Time Series Forecasting [82.03373838627606]
Transformerアーキテクチャにおける自己保持機構は、時系列予測において時間順序を符号化するために位置埋め込みを必要とする。
この位置埋め込みへの依存は、トランスフォーマーの時間的シーケンスを効果的に表現する能力を制限している、と我々は主張する。
本稿では,Prepreを標準的なTransformerエンコーダと統合し,様々な実世界のデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2024-08-20T01:56:07Z) - GIVT: Generative Infinite-Vocabulary Transformers [18.55070896912795]
実数値エントリを持つベクトル列を生成するGIVT(Generative Infinite-Vocabulary Transformers)を導入する。
VQ-GANとMaskGITの画像生成パラダイムにインスパイアされた私たちは、GIVTを使って、$beta$-VAEの未定量実数値列をモデル化する。
クラス条件画像生成におけるGIVTは、VQ-GANやMaskGITよりも優れ、近年の潜伏拡散モデルと競合する性能を実現する。
論文 参考訳(メタデータ) (2023-12-04T18:48:02Z) - Unsupervised Speech Enhancement using Dynamical Variational
Auto-Encoders [29.796695365217893]
動的変分自動エンコーダ(Dynamical Variational Auto-Encoders, DVAE)は、潜伏変数を持つ深部生成モデルのクラスである。
DVAEの最も一般的な形式に基づく教師なし音声強調アルゴリズムを提案する。
音声強調を行うための変分予測最大化アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-06-23T09:48:38Z) - Analogous to Evolutionary Algorithm: Designing a Unified Sequence Model [58.17021225930069]
実演的進化アルゴリズム(EA)と類似した視覚変換器の合理性について説明する。
我々は、より効率的なEATモデルを提案し、様々なタスクに柔軟に対処するタスク関連ヘッドを設計する。
近年のビジョントランスに比べて,イメージネット分類作業における最先端の成果が得られている。
論文 参考訳(メタデータ) (2021-05-31T16:20:03Z) - Dynamical Variational Autoencoders: A Comprehensive Review [23.25573952809074]
動的変分オートエンコーダ(DVAE)と呼ばれるモデルの一般的なクラスを紹介し,議論する。
我々は最近提案された7つのDVAEモデルについて詳述し、表記法とプレゼンテーションラインの均質化を目的としている。
我々は,これらの7つのDVAEモデルを再実装し,音声分析・再合成タスクで実施した実験結果を示す。
論文 参考訳(メタデータ) (2020-08-28T11:49:33Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - DiscreTalk: Text-to-Speech as a Machine Translation Problem [52.33785857500754]
本稿ではニューラルマシン翻訳(NMT)に基づくエンドツーエンドテキスト音声合成(E2E-TTS)モデルを提案する。
提案モデルは,非自己回帰ベクトル量子化変分オートエンコーダ(VQ-VAE)モデルと自己回帰トランスフォーマー-NMTモデルという2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2020-05-12T02:45:09Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z) - Variational Transformers for Diverse Response Generation [71.53159402053392]
変分変換器(VT)は、変分自己注意フィードフォワードシーケンスモデルである。
VTはトランスフォーマーの並列化性と大域的受容場計算とCVAEの変動特性を組み合わせる。
本稿では,1)大域潜伏変数を用いた談話レベルの多様性のモデル化,2)細粒潜伏変数の列によるトランスフォーマーデコーダの拡張,の2種類のVTについて検討する。
論文 参考訳(メタデータ) (2020-03-28T07:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。