論文の概要: Posterior sampling algorithms for unsupervised speech enhancement with
recurrent variational autoencoder
- arxiv url: http://arxiv.org/abs/2309.10439v1
- Date: Tue, 19 Sep 2023 08:59:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 15:24:13.949238
- Title: Posterior sampling algorithms for unsupervised speech enhancement with
recurrent variational autoencoder
- Title(参考訳): リカレント可変オートエンコーダを用いた教師なし音声強調のための後方サンプリングアルゴリズム
- Authors: Mostafa Sadeghi (MULTISPEECH), Romain Serizel (MULTISPEECH)
- Abstract要約: リカレント変分オートエンコーダ(RVAE)に基づく教師なし音声強調問題に対処する。
このアプローチは、教師付きよりも有望な一般化性能を提供する。
本稿では,LangevinのダイナミックスとMetropolis-Hastingアルゴリズムに基づく効率的なサンプリング手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we address the unsupervised speech enhancement problem based
on recurrent variational autoencoder (RVAE). This approach offers promising
generalization performance over the supervised counterpart. Nevertheless, the
involved iterative variational expectation-maximization (VEM) process at test
time, which relies on a variational inference method, results in high
computational complexity. To tackle this issue, we present efficient sampling
techniques based on Langevin dynamics and Metropolis-Hasting algorithms,
adapted to the EM-based speech enhancement with RVAE. By directly sampling from
the intractable posterior distribution within the EM process, we circumvent the
intricacies of variational inference. We conduct a series of experiments,
comparing the proposed methods with VEM and a state-of-the-art supervised
speech enhancement approach based on diffusion models. The results reveal that
our sampling-based algorithms significantly outperform VEM, not only in terms
of computational efficiency but also in overall performance. Furthermore, when
compared to the supervised baseline, our methods showcase robust generalization
performance in mismatched test conditions.
- Abstract(参考訳): 本稿では,リカレント変分オートエンコーダ(RVAE)に基づく教師なし音声強調問題に対処する。
このアプローチは有望な一般化性能を提供する。
それでも、テスト時の反復変動予測最大化(VEM)プロセスは、変分推論法に依存しており、高い計算複雑性をもたらす。
本稿では,rvaeを用いたem音声強調に適応した,ランジュバンダイナミクスとメトロポリスハスティングアルゴリズムに基づく効率的なサンプリング手法を提案する。
EMプロセス内の抽出可能な後部分布から直接サンプリングすることにより,変動推論の複雑さを回避することができる。
本研究では,提案手法をvemと比較し,拡散モデルに基づく最先端の教師付き音声強調手法を提案する。
その結果, サンプリングに基づくアルゴリズムは, 計算効率だけでなく, 全体的な性能にも優れることがわかった。
さらに,教師付きベースラインと比較した場合,ミスマッチテスト条件におけるロバストな一般化性能を示す。
関連論文リスト
- Variational Autoencoders for Efficient Simulation-Based Inference [0.3495246564946556]
本稿では、確率自由なシミュレーションに基づく推論のための変分推論フレームワークに基づく生成的モデリング手法を提案する。
我々は,これらのモデルの有効性を,フローベースアプローチに匹敵する結果が得られるように,確立されたベンチマーク問題に対して示す。
論文 参考訳(メタデータ) (2024-11-21T12:24:13Z) - Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment [81.84950252537618]
本稿では,反復的BONDと自己プレイアライメントの統一的なゲーム理論接続を明らかにする。
WINレート支配(WIN rate Dominance, WIND)という新しいフレームワークを構築し, 正規化利率支配最適化のためのアルゴリズムを多数提案する。
論文 参考訳(メタデータ) (2024-10-28T04:47:39Z) - Online Variational Sequential Monte Carlo [49.97673761305336]
我々は,計算効率が高く正確なモデルパラメータ推定とベイジアン潜在状態推定を提供する変分連続モンテカルロ法(VSMC)を構築した。
オンラインVSMCは、パラメータ推定と粒子提案適応の両方を効率よく、完全にオンザフライで実行することができる。
論文 参考訳(メタデータ) (2023-12-19T21:45:38Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Observation-Guided Diffusion Probabilistic Models [41.749374023639156]
観測誘導拡散確率モデル(OGDM)と呼ばれる新しい拡散に基づく画像生成法を提案する。
本手法は,観測プロセスの指導をマルコフ連鎖と統合することにより,トレーニング目標を再構築する。
本研究では,強力な拡散モデルベースライン上での多様な推論手法を用いたトレーニングアルゴリズムの有効性を示す。
論文 参考訳(メタデータ) (2023-10-06T06:29:06Z) - Optimizing Hyperparameters with Conformal Quantile Regression [7.316604052864345]
本稿では,観測ノイズについて最小限の仮定を行う等化量子レグレッションを活用することを提案する。
これは経験的ベンチマークでのHPO収束を早くすることを意味する。
論文 参考訳(メタデータ) (2023-05-05T15:33:39Z) - Variational Laplace Autoencoders [53.08170674326728]
変分オートエンコーダは、遅延変数の後部を近似するために、償却推論モデルを用いる。
完全分解ガウス仮定の限定的後部表現性に対処する新しい手法を提案する。
また、深部生成モデルのトレーニングのための変分ラプラスオートエンコーダ(VLAE)という一般的なフレームワークも提示する。
論文 参考訳(メタデータ) (2022-11-30T18:59:27Z) - Fast and efficient speech enhancement with variational autoencoders [0.0]
変分オートエンコーダに基づく教師なし音声強調は、一般的な教師付き手法と比較して有望な性能を示した。
本稿では,複数のサンプル列を生成するランゲヴィン力学に基づく新しい手法を提案する。
提案手法は, 計算効率と品質向上を効果的に両立させ, 既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2022-11-02T09:52:13Z) - Speech Enhancement and Dereverberation with Diffusion-based Generative
Models [14.734454356396157]
本稿では,微分方程式に基づく拡散過程について概説する。
提案手法により,30段階の拡散しか行わず,高品質なクリーン音声推定が可能であることを示す。
大規模なクロスデータセット評価では、改良された手法が近年の識別モデルと競合することを示す。
論文 参考訳(メタデータ) (2022-08-11T13:55:12Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。