論文の概要: Fast and efficient speech enhancement with variational autoencoders
- arxiv url: http://arxiv.org/abs/2211.02728v1
- Date: Wed, 2 Nov 2022 09:52:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-13 23:39:44.277652
- Title: Fast and efficient speech enhancement with variational autoencoders
- Title(参考訳): 変分オートエンコーダによる高速かつ効率的な音声強調
- Authors: Mostafa Sadeghi (MULTISPEECH), Romain Serizel (MULTISPEECH)
- Abstract要約: 変分オートエンコーダに基づく教師なし音声強調は、一般的な教師付き手法と比較して有望な性能を示した。
本稿では,複数のサンプル列を生成するランゲヴィン力学に基づく新しい手法を提案する。
提案手法は, 計算効率と品質向上を効果的に両立させ, 既存の手法より優れていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised speech enhancement based on variational autoencoders has shown
promising performance compared with the commonly used supervised methods. This
approach involves the use of a pre-trained deep speech prior along with a
parametric noise model, where the noise parameters are learned from the noisy
speech signal with an expectationmaximization (EM)-based method. The E-step
involves an intractable latent posterior distribution. Existing algorithms to
solve this step are either based on computationally heavy Monte Carlo Markov
Chain sampling methods and variational inference, or inefficient
optimization-based methods. In this paper, we propose a new approach based on
Langevin dynamics that generates multiple sequences of samples and comes with a
total variation-based regularization to incorporate temporal correlations of
latent vectors. Our experiments demonstrate that the developed framework makes
an effective compromise between computational efficiency and enhancement
quality, and outperforms existing methods.
- Abstract(参考訳): 変分オートエンコーダに基づく教師なし音声強調は、一般的な教師付き手法と比較して有望な性能を示した。
この手法では,事前学習した深層音声とパラメトリック雑音モデルを用いることで,雑音パラメータを予測最大化法(EM)を用いて雑音信号から学習する。
e-stepは難解な潜伏後方分布を伴う。
このステップを解くための既存のアルゴリズムは計算量の多いモンテカルロマルコフ連鎖サンプリング法と変分推論、あるいは非効率的な最適化に基づく手法に基づいている。
本稿では,複数のサンプル列を生成するランジュバンダイナミクスに基づく新しい手法を提案する。
提案手法は, 計算効率と品質向上を効果的に両立させ, 既存の手法より優れていることを示す。
関連論文リスト
- Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment [81.84950252537618]
本稿では,反復的BONDと自己プレイアライメントの統一的なゲーム理論接続を明らかにする。
WINレート支配(WIN rate Dominance, WIND)という新しいフレームワークを構築し, 正規化利率支配最適化のためのアルゴリズムを多数提案する。
論文 参考訳(メタデータ) (2024-10-28T04:47:39Z) - Hyperparameter Estimation for Sparse Bayesian Learning Models [1.0172874946490507]
Aparse Bayesian Learning (SBL) モデルは、信号処理や機械学習において、階層的な事前処理による疎結合を促進するために広く使われている。
本稿では,種々の目的関数に対するSBLモデルの改良のためのフレームワークを提案する。
信号雑音比において, 高い効率性を示す新しいアルゴリズムが導入された。
論文 参考訳(メタデータ) (2024-01-04T21:24:01Z) - Posterior sampling algorithms for unsupervised speech enhancement with
recurrent variational autoencoder [0.0]
リカレント変分オートエンコーダ(RVAE)に基づく教師なし音声強調問題に対処する。
このアプローチは、教師付きよりも有望な一般化性能を提供する。
本稿では,LangevinのダイナミックスとMetropolis-Hastingアルゴリズムに基づく効率的なサンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-09-19T08:59:32Z) - An Optimization-based Deep Equilibrium Model for Hyperspectral Image
Deconvolution with Convergence Guarantees [71.57324258813675]
本稿では,ハイパースペクトル画像のデコンボリューション問題に対処する新しい手法を提案する。
新しい最適化問題を定式化し、学習可能な正規化器をニューラルネットワークの形で活用する。
導出した反復解法は、Deep Equilibriumフレームワーク内の不動点計算問題として表現される。
論文 参考訳(メタデータ) (2023-06-10T08:25:16Z) - Adaptive Fake Audio Detection with Low-Rank Model Squeezing [50.7916414913962]
ファインタニングのような従来の手法は計算集約的であり、既知の偽音声タイプの知識を損なう危険性がある。
本稿では,新たに登場したニセモノ音声タイプに特化して,低ランク適応行列をトレーニングするコンセプトを紹介する。
当社のアプローチには,ストレージメモリ要件の削減やエラー率の低下など,いくつかのメリットがあります。
論文 参考訳(メタデータ) (2023-06-08T06:06:42Z) - Tradeoffs between convergence rate and noise amplification for momentum-based accelerated optimization algorithms [8.669461942767098]
モーメントに基づく1次最適化アルゴリズムについて検討し, 繰り返しが付加的な白色雑音を受ける場合について検討した。
強い凸2次問題に対しては、雑音増幅の定量化のために最適化変数における誤差の定常分散を用いる。
雑音増幅と定位時間のバランスをとるアルゴリズムの2つのパラメータ化ファミリを導入する。
論文 参考訳(メタデータ) (2022-09-24T04:26:30Z) - Speech Enhancement and Dereverberation with Diffusion-based Generative
Models [14.734454356396157]
本稿では,微分方程式に基づく拡散過程について概説する。
提案手法により,30段階の拡散しか行わず,高品質なクリーン音声推定が可能であることを示す。
大規模なクロスデータセット評価では、改良された手法が近年の識別モデルと競合することを示す。
論文 参考訳(メタデータ) (2022-08-11T13:55:12Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - Plug-And-Play Learned Gaussian-mixture Approximate Message Passing [71.74028918819046]
そこで本研究では,従来のi.i.d.ソースに適した圧縮圧縮センシング(CS)リカバリアルゴリズムを提案する。
我々のアルゴリズムは、Borgerdingの学習AMP(LAMP)に基づいて構築されるが、アルゴリズムに普遍的な復調関数を採用することにより、それを大幅に改善する。
数値評価により,L-GM-AMPアルゴリズムは事前の知識を必要とせず,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-11-18T16:40:45Z) - BERT Loses Patience: Fast and Robust Inference with Early Exit [91.26199404912019]
本稿では,事前学習した言語モデルの効率性と堅牢性を向上させるためのプラグイン・アンド・プレイ手法として,Patience-based Early Exitを提案する。
提案手法では,モデルを少ないレイヤで予測できるため,推論効率が向上する。
論文 参考訳(メタデータ) (2020-06-07T13:38:32Z) - Improving auditory attention decoding performance of linear and
non-linear methods using state-space model [21.40315235087551]
脳波検査の最近の進歩は、単一の脳波記録からターゲット話者を特定することが可能であることを示している。
AAD法は、線形最小二乗関数または非線形ニューラルネットワークに基づいて、脳波記録から出席した音声エンベロープを再構成する。
相関窓の小さい相関係数を用いた状態空間モデルについて検討し,復号性能の向上を図る。
論文 参考訳(メタデータ) (2020-04-02T09:56:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。