論文の概要: Simultaneous Denoising and Dereverberation Using Deep Embedding Features
- arxiv url: http://arxiv.org/abs/2004.02420v1
- Date: Mon, 6 Apr 2020 06:34:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 07:40:13.299171
- Title: Simultaneous Denoising and Dereverberation Using Deep Embedding Features
- Title(参考訳): 深部埋め込み特徴を用いた同時脱雑音化と残響除去
- Authors: Cunhang Fan and Jianhua Tao and Bin Liu and Jiangyan Yi and Zhengqi
Wen
- Abstract要約: ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。
ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。
残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
- 参考スコア(独自算出の注目度): 64.58693911070228
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monaural speech dereverberation is a very challenging task because no spatial
cues can be used. When the additive noises exist, this task becomes more
challenging. In this paper, we propose a joint training method for simultaneous
speech denoising and dereverberation using deep embedding features, which is
based on the deep clustering (DC). DC is a state-of-the-art method for speech
separation that includes embedding learning and K-means clustering. As for our
proposed method, it contains two stages: denoising and dereverberation. At the
denoising stage, the DC network is leveraged to extract noise-free deep
embedding features. These embedding features are generated from the anechoic
speech and residual reverberation signals. They can represent the inferred
spectral masking patterns of the desired signals, which are discriminative
features. At the dereverberation stage, instead of using the unsupervised
K-means clustering algorithm, another supervised neural network is utilized to
estimate the anechoic speech from these deep embedding features. Finally, the
denoising stage and dereverberation stage are optimized by the joint training
method. Experimental results show that the proposed method outperforms the WPE
and BLSTM baselines, especially in the low SNR condition.
- Abstract(参考訳): モナラ音声の除去は空間的手がかりを使用できないため、非常に困難な作業である。
加算ノイズが存在すると、この課題はより困難になる。
本稿では,深層クラスタリング(deep clustering:dc)に基づく深層埋め込み特徴を用いた同時発声と残響の同時学習手法を提案する。
DCは、組込み学習とK平均クラスタリングを含む、音声分離のための最先端の手法である。
提案手法は, 脱臭と脱脂の2段階を含む。
ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋め込み特徴を抽出する。
これらの埋め込み特徴は、無響音声と残響信号から生成される。
それらは、識別的特徴である所望の信号のスペクトルマスキングパターンを推定することができる。
除去段階では、教師なしK平均クラスタリングアルゴリズムの代わりに、他の教師付きニューラルネットワークを用いて、これらの深い埋め込み特徴から無響音声を推定する。
最後に, 調音段階と脱水段階をジョイントトレーニング法により最適化する。
実験の結果,提案手法は低SNR条件下でのWPEおよびBLSTMベースラインよりも優れていた。
関連論文リスト
- Effective Noise-aware Data Simulation for Domain-adaptive Speech Enhancement Leveraging Dynamic Stochastic Perturbation [25.410770364140856]
クロスドメイン音声強調(SE)は、目に見えない対象領域におけるノイズや背景情報の不足により、しばしば深刻な課題に直面している。
本研究では,ノイズ抽出技術とGANを利用した新しいデータシミュレーション手法を提案する。
本研究では,動的摂動の概念を導入し,制御された摂動を推論中の雑音埋め込みに注入する。
論文 参考訳(メタデータ) (2024-09-03T02:29:01Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Diffusion-based speech enhancement with a weighted generative-supervised
learning loss [0.0]
拡散に基づく生成モデルは近年,音声強調(SE)において注目を集めている。
そこで本研究では,従来の拡散訓練目標を平均二乗誤差(MSE)損失で拡張することを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:35Z) - Continuous Modeling of the Denoising Process for Speech Enhancement
Based on Deep Learning [61.787485727134424]
状態変数をデノナイジングプロセスを示すために使用します。
UNetのようなニューラルネットワークは、連続的復調プロセスからサンプリングされたすべての状態変数を推定することを学ぶ。
実験結果から, クリーンターゲットに少量の雑音を保存することは, 音声強調に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-09-17T13:27:11Z) - Exploring Efficient Asymmetric Blind-Spots for Self-Supervised Denoising in Real-World Scenarios [44.31657750561106]
実世界のシナリオにおけるノイズはしばしば空間的に相関しており、多くの自己教師型アルゴリズムは性能が良くない。
盲点サイズを自由に調整できる非対称可変ブラインド・スポットネットワーク(AT-BSN)を提案する。
提案手法は最先端技術を実現し,計算オーバーヘッドや視覚効果の観点から,他の自己教師付きアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-03-29T15:19:01Z) - Latent Class-Conditional Noise Model [54.56899309997246]
本稿では,ベイズ的枠組みの下での雑音遷移をパラメータ化するためのLatent Class-Conditional Noise Model (LCCN)を提案する。
次に、Gibs sampler を用いて遅延真のラベルを効率的に推測できる LCCN の動的ラベル回帰法を導出する。
提案手法は,サンプルのミニバッチから事前の任意チューニングを回避するため,ノイズ遷移の安定な更新を保護している。
論文 参考訳(メタデータ) (2023-02-19T15:24:37Z) - NLIP: Noise-robust Language-Image Pre-training [95.13287735264937]
雑音調和と雑音補完という2つの手法を用いて事前学習の安定化を図るため,NLIPの原理的手法を提案する。
我々のNLIPは、画像テキスト事前学習における一般的なノイズ効果をより効率的に軽減することができる。
論文 参考訳(メタデータ) (2022-12-14T08:19:30Z) - Distribution Conditional Denoising: A Flexible Discriminative Image
Denoiser [0.0]
U-Netに基づくデゾナイズFCNにマルチタスク学習手法を適用するフレキシブルな識別画像デノイザを導入する。
この条件付き学習法は, 定音レベルU-Netデノイザを様々な雑音レベルに一般化することができる。
論文 参考訳(メタデータ) (2020-11-24T21:27:18Z) - Sparse Mixture of Local Experts for Efficient Speech Enhancement [19.645016575334786]
本稿では,専門的ニューラルネットワークの効率的なアンサンブルを通して,音声を聴覚的に認識するためのディープラーニング手法について検討する。
タスクを重複しないサブプロブレムに分割することで、計算複雑性を低減しつつ、デノナイジング性能を向上させることができる。
以上の結果から,微調整されたアンサンブルネットワークは,一般のネットワークの発声能力を上回ることができることがわかった。
論文 参考訳(メタデータ) (2020-05-16T23:23:22Z) - ADRN: Attention-based Deep Residual Network for Hyperspectral Image
Denoising [52.01041506447195]
ノイズの多いHSIからクリーンなHSIへのマッピングを学習するために,注目に基づくディープ残差ネットワークを提案する。
実験の結果,提案手法は定量的および視覚的評価において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-04T08:36:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。