論文の概要: Unsupervised Speech Enhancement using Dynamical Variational
Auto-Encoders
- arxiv url: http://arxiv.org/abs/2106.12271v1
- Date: Wed, 23 Jun 2021 09:48:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-24 15:26:46.422081
- Title: Unsupervised Speech Enhancement using Dynamical Variational
Auto-Encoders
- Title(参考訳): 動的変分オートエンコーダを用いた教師なし音声強調
- Authors: Xiaoyu Bie, Simon Leglaive, Xavier Alameda-Pineda, Laurent Girin
- Abstract要約: 動的変分自動エンコーダ(Dynamical Variational Auto-Encoders, DVAE)は、潜伏変数を持つ深部生成モデルのクラスである。
DVAEの最も一般的な形式に基づく教師なし音声強調アルゴリズムを提案する。
音声強調を行うための変分予測最大化アルゴリズムを導出する。
- 参考スコア(独自算出の注目度): 29.796695365217893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dynamical variational auto-encoders (DVAEs) are a class of deep generative
models with latent variables, dedicated to time series data modeling. DVAEs can
be considered as extensions of the variational autoencoder (VAE) that include
the modeling of temporal dependencies between successive observed and/or latent
vectors in data sequences. Previous work has shown the interest of DVAEs and
their better performance over the VAE for speech signals (spectrogram)
modeling. Independently, the VAE has been successfully applied to speech
enhancement in noise, in an unsupervised noise-agnostic set-up that does not
require the use of a parallel dataset of clean and noisy speech samples for
training, but only requires clean speech signals. In this paper, we extend
those works to DVAE-based single-channel unsupervised speech enhancement, hence
exploiting both speech signals unsupervised representation learning and
dynamics modeling. We propose an unsupervised speech enhancement algorithm
based on the most general form of DVAEs, that we then adapt to three specific
DVAE models to illustrate the versatility of the framework. More precisely, we
combine DVAE-based speech priors with a noise model based on nonnegative matrix
factorization, and we derive a variational expectation-maximization (VEM)
algorithm to perform speech enhancement. Experimental results show that the
proposed approach based on DVAEs outperforms its VAE counterpart and a
supervised speech enhancement baseline.
- Abstract(参考訳): 動的変分自動エンコーダ(Dynamical Variational Auto-Encoders, DVAE)は、時系列データモデリングに特化した潜伏変数を持つ深部生成モデルのクラスである。
DVAEは、連続した観測ベクトルおよび/または遅延ベクトル間の時間的依存関係のモデリングを含む変分オートエンコーダ(VAE)の拡張と見なすことができる。
従来の研究は、音声信号(スペクトログラム)モデリングにおいて、DVAEの関心と、VAEよりも優れた性能を示してきた。
独立して、VAEは、訓練にクリーンでノイズの多い音声サンプルの並列データセットを必要とせず、クリーンな音声信号のみを必要とする、教師なしノイズ非依存のセットアップにおいて、音声強調に成功している。
本稿では,dvaeを用いた単一チャネル非教師なし音声強調に拡張し,教師なし表現学習とダイナミクスモデリングの両方を利用する。
我々は,最も一般的なdvaesに基づく教師なし音声強調アルゴリズムを提案し,フレームワークの汎用性を説明するために3つのdvaeモデルに適応させた。
より正確には、DVAEに基づく先行音声を非負行列分解に基づく雑音モデルと組み合わせ、変動予測最大化(VEM)アルゴリズムを導出し、音声強調を行う。
実験の結果,DVAEsに基づく提案手法は,VAEと教師付き音声強調ベースラインよりも優れていた。
関連論文リスト
- Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - Unsupervised speech enhancement with deep dynamical generative speech
and noise models [26.051535142743166]
本研究は、クリーン音声モデルとして動的変分オートエンコーダ(DVAE)、ノイズモデルとして非負行列分解(NMF)を用いた教師なし音声強調に関する以前の研究に基づいている。
本研究では,NMFノイズモデルにDVAE潜伏変数,雑音観測,あるいはその両方に依存する深部動的生成モデル(DDGM)を置き換えることを提案する。
論文 参考訳(メタデータ) (2023-06-13T14:52:35Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - Speech Modeling with a Hierarchical Transformer Dynamical VAE [23.847366888695266]
階層変換器DVAE(HiT-DVAE)を用いた音声信号のモデル化を提案する。
本稿では,HT-DVAEが音声スペクトログラムモデリングにおける他のDVAEよりも優れており,訓練手順が簡単であることを示す。
論文 参考訳(メタデータ) (2023-03-07T13:35:45Z) - Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition [66.94463981654216]
話者適応型視覚音声認識(VSR)のためのディープニューラルネットワーク(DNN)の即時チューニング手法を提案する。
我々は、事前訓練されたモデルパラメータを変更する代わりに、ターゲット話者の適応データを微調整する。
提案手法の有効性を単語レベルのVSRデータベースと文レベルのVSRデータベースで評価した。
論文 参考訳(メタデータ) (2023-02-16T06:01:31Z) - Audio-visual speech enhancement with a deep Kalman filter generative
model [0.0]
本稿では,潜伏変数に対するマルコフ連鎖モデルを想定したオーディオビジュアルディープカルマンフィルタ(AV-DKF)生成モデルを提案する。
テスト時に音声信号を推定する効率的な推論手法を開発した。
論文 参考訳(メタデータ) (2022-11-02T09:50:08Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - Switching Variational Auto-Encoders for Noise-Agnostic Audio-visual
Speech Enhancement [26.596930749375474]
本稿では,異なるVAEアーキテクチャを時間的に切り換えるために,マルコフの依存関係を持つ潜在逐次変数を導入する。
モデルのパラメータを推定し、音声信号を強化するために、対応する変動予測-最大化アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-02-08T11:45:02Z) - Deep Variational Generative Models for Audio-visual Speech Separation [33.227204390773316]
クリーン音声の音声・視覚生成モデルに基づく教師なし手法を提案する。
視覚情報をよりよく活用するために、混合音声から潜伏変数の後部を推定する。
実験の結果,非教師付きVAE法はNMF法よりも分離性能がよいことがわかった。
論文 参考訳(メタデータ) (2020-08-17T10:12:33Z) - Generating diverse and natural text-to-speech samples using a quantized
fine-grained VAE and auto-regressive prosody prior [53.69310441063162]
本稿では,より自然な音響サンプルを生成できる離散潜在空間における逐次前処理を提案する。
本研究では,聴取試験,自動音声認識(ASR)性能の客観的指標,韻律特性の測定によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T12:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。