論文の概要: Uncertainty Estimation in Deep Speech Enhancement Using Complex Gaussian
Mixture Models
- arxiv url: http://arxiv.org/abs/2212.04831v1
- Date: Fri, 9 Dec 2022 13:03:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 16:24:07.132152
- Title: Uncertainty Estimation in Deep Speech Enhancement Using Complex Gaussian
Mixture Models
- Title(参考訳): 複素ガウス混合モデルを用いた深部音声強調の不確かさ推定
- Authors: Huajian Fang and Timo Gerkmann
- Abstract要約: 単一チャンネルのディープ音声強調手法は、その精度を測らずにクリーン音声を抽出するために単一の乗法マスクを推定することが多い。
本稿では,ニューラルネットワークによる音声強調におけるクリーン音声推定に伴う不確かさの定量化を提案する。
- 参考スコア(独自算出の注目度): 19.442685015494316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Single-channel deep speech enhancement approaches often estimate a single
multiplicative mask to extract clean speech without a measure of its accuracy.
Instead, in this work, we propose to quantify the uncertainty associated with
clean speech estimates in neural network-based speech enhancement. Predictive
uncertainty is typically categorized into aleatoric uncertainty and epistemic
uncertainty. The former accounts for the inherent uncertainty in data and the
latter corresponds to the model uncertainty. Aiming for robust clean speech
estimation and efficient predictive uncertainty quantification, we propose to
integrate statistical complex Gaussian mixture models (CGMMs) into a deep
speech enhancement framework. More specifically, we model the dependency
between input and output stochastically by means of a conditional probability
density and train a neural network to map the noisy input to the full posterior
distribution of clean speech, modeled as a mixture of multiple complex Gaussian
components. Experimental results on different datasets show that the proposed
algorithm effectively captures predictive uncertainty and that combining
powerful statistical models and deep learning also delivers a superior speech
enhancement performance.
- Abstract(参考訳): 単一チャンネルのディープ音声強調手法は、その精度を測らずにクリーン音声を抽出するために単一の乗法マスクを推定することが多い。
そこで本研究では,ニューラルネットワークによる音声強調におけるクリーン音声推定に関する不確実性を定量化する。
予測の不確実性は、典型的にはアレタリック不確実性とてんかん不確実性に分類される。
前者はデータに固有の不確実性を示し、後者はモデルの不確実性に対応する。
頑健なクリーン音声推定と効率的な予測不確実性定量化を目的として,統計複素ガウス混合モデル(CGMM)を深層音声強調フレームワークに統合することを提案する。
具体的には、条件付き確率密度を用いて入力と出力の依存関係を確率的にモデル化し、複数の複合ガウス成分の混合としてモデル化されたクリーン音声の完全後部分布に雑音入力をマッピングするようにニューラルネットワークを訓練する。
異なるデータセットに対する実験結果から,提案アルゴリズムは予測の不確かさを効果的に把握し,強力な統計モデルと深層学習を組み合わせることにより,優れた音声強調性能が得られることが示された。
関連論文リスト
- Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Integrating Uncertainty into Neural Network-based Speech Enhancement [27.868722093985006]
時間周波数領域における監視されたマスキングアプローチは、ディープニューラルネットワークを使用して乗法マスクを推定し、クリーンな音声を抽出することを目的としている。
これにより、信頼性の保証や尺度を使わずに、各入力に対する単一の見積もりが導かれる。
クリーン音声推定における不確実性モデリングの利点について検討する。
論文 参考訳(メタデータ) (2023-05-15T15:55:12Z) - Toward Robust Uncertainty Estimation with Random Activation Functions [3.0586855806896045]
本稿では,ランダムアクティベーション関数(RAF)アンサンブルを用いた不確実性定量化手法を提案する。
RAF アンサンブルは、合成データセットと実世界のデータセットの両方において、最先端のアンサンブル不確実性定量化手法より優れている。
論文 参考訳(メタデータ) (2023-02-28T13:17:56Z) - Density Regression and Uncertainty Quantification with Bayesian Deep
Noise Neural Networks [4.376565880192482]
ディープニューラルネットワーク(DNN)モデルは、幅広い教師付き学習アプリケーションにおいて最先端の予測精度を達成した。
DNN予測の不確実性を正確に定量化することは、依然として難しい課題である。
本稿では,ベイジアンディープノイズニューラルネットワーク (B-DeepNoise) を提案する。ベイジアンDNNは,ランダムノイズ変数をすべての隠蔽層に拡張することにより,標準ベイジアンDNNを一般化する。
予測精度,不確実性定量化精度,不確実性定量化効率の点で優れた性能を示した。
論文 参考訳(メタデータ) (2022-06-12T02:47:29Z) - A General Framework for quantifying Aleatoric and Epistemic uncertainty
in Graph Neural Networks [0.29494468099506893]
Graph Neural Networks(GNN)は、グラフ理論と機械学習をエレガントに統合する強力なフレームワークを提供する。
本稿では,モデル誤差と測定の不確かさからGNNの予測の不確かさを定量化する問題を考察する。
ベイジアンフレームワークにおける両源の不確実性を扱うための統一的なアプローチを提案する。
論文 参考訳(メタデータ) (2022-05-20T05:25:40Z) - Integrating Statistical Uncertainty into Neural Network-Based Speech
Enhancement [27.868722093985006]
ニューラルネットワークに基づく音声強調における不確実性モデリングの利点について検討する。
点推定の代わりに分布を推定することにより、各推定に関連付けられた不確実性をモデル化することができる。
論文 参考訳(メタデータ) (2022-03-04T12:55:46Z) - Tight integration of neural- and clustering-based diarization through
deep unfolding of infinite Gaussian mixture model [84.57667267657382]
本稿では,統合フレームワークにトレーニング可能なクラスタリングアルゴリズムを導入する。
話者埋め込みはトレーニング中に最適化され、iGMMクラスタリングに適合する。
実験の結果,提案手法はダイアリゼーション誤差率において従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-02-14T07:45:21Z) - NUQ: Nonparametric Uncertainty Quantification for Deterministic Neural
Networks [151.03112356092575]
本研究では,Nadaraya-Watson の条件付きラベル分布の非パラメトリック推定に基づく分類器の予測の不確かさの測定方法を示す。
種々の実世界の画像データセットにおける不確実性推定タスクにおいて,本手法の強い性能を示す。
論文 参考訳(メタデータ) (2022-02-07T12:30:45Z) - Dense Uncertainty Estimation [62.23555922631451]
本稿では,ニューラルネットワークと不確実性推定手法について検討し,正確な決定論的予測と確実性推定の両方を実現する。
本研究では,アンサンブルに基づく手法と生成モデルに基づく手法の2つの不確実性推定法について検討し,それらの長所と短所を,完全/半端/弱度に制御されたフレームワークを用いて説明する。
論文 参考訳(メタデータ) (2021-10-13T01:23:48Z) - Consistency Regularization for Certified Robustness of Smoothed
Classifiers [89.72878906950208]
最近のランダムな平滑化技術は、最悪の$ell$-robustnessを平均ケースのロバストネスに変換することができることを示している。
その結果,スムーズな分類器の精度と信頼性の高いロバスト性とのトレードオフは,ノイズに対する予測一貫性の規則化によって大きく制御できることが判明した。
論文 参考訳(メタデータ) (2020-06-07T06:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。