Fugu-MT 論文翻訳(概要): Noise-aware Speech Enhancement using Diffusion Probabilistic Model

論文の概要: Noise-aware Speech Enhancement using Diffusion Probabilistic Model

arxiv url: http://arxiv.org/abs/2307.08029v2
Date: Tue, 4 Jun 2024 06:57:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-06 14:26:34.257767
Title: Noise-aware Speech Enhancement using Diffusion Probabilistic Model
Title（参考訳）: 拡散確率モデルを用いた雑音認識音声強調
Authors: Yuchen Hu, Chen Chen, Ruizhe Li, Qiushi Zhu, Eng Siong Chng,
Abstract要約: 拡散モデルにおける逆過程を導出する雑音固有情報を抽出する雑音認識音声強調(NASE)手法を提案する。 NASEは任意の拡散SEモデルに一般化できるプラグイン・アンド・プレイモジュールであることが示されている。
参考スコア（独自算出の注目度）: 35.17225451626734
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With recent advances of diffusion model, generative speech enhancement (SE) has attracted a surge of research interest due to its great potential for unseen testing noises. However, existing efforts mainly focus on inherent properties of clean speech, underexploiting the varying noise information in real world. In this paper, we propose a noise-aware speech enhancement (NASE) approach that extracts noise-specific information to guide the reverse process in diffusion model. Specifically, we design a noise classification (NC) model to produce acoustic embedding as a noise conditioner to guide the reverse denoising process. Meanwhile, a multi-task learning scheme is devised to jointly optimize SE and NC tasks to enhance the noise specificity of conditioner. NASE is shown to be a plug-and-play module that can be generalized to any diffusion SE models. Experiments on VB-DEMAND dataset show that NASE effectively improves multiple mainstream diffusion SE models, especially on unseen noises.
Abstract（参考訳）: 近年の拡散モデルの発展に伴い, 生成音声強調(SE)が注目されている。しかし,既存の研究は主にクリーン音声の性質に焦点が当てられており,実世界の様々な騒音情報を過小評価している。本稿では,拡散モデルにおける逆過程を導くために,雑音固有情報を抽出する雑音認識音声強調(NASE)手法を提案する。具体的には、ノイズコンディショナーとして音響埋め込みを生成するためのノイズ分類(NC)モデルを設計し、逆復調過程を導出する。一方,マルチタスク学習方式はSEタスクとNCタスクを協調的に最適化し,コンディショナーの雑音特異性を高める。 NASEは任意の拡散SEモデルに一般化できるプラグイン・アンド・プレイモジュールであることが示されている。 VB-DEMANDデータセットの実験により、NASEは、特に目に見えない雑音において、複数の主流拡散SEモデルを効果的に改善することが示された。

関連論文リスト

Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance [54.88271057438763]
ノイズアウェアネスガイダンス (NAG) は、事前に定義された騒音スケジュールと整合性を保つために、サンプリング軌道を明示的に制御する補正手法である。 NAGは一貫してノイズシフトを緩和し、主流拡散モデルの生成品質を大幅に改善する。
論文参考訳（メタデータ） (2025-10-14T13:31:34Z)
Enhance Vision-Language Alignment with Noise [59.2608298578913]
本研究では,凍結モデルがカスタマイズノイズによって微調整可能であるか検討する。ビジュアルエンコーダとテキストエンコーダの両方にノイズを注入することでCLIPを微調整できる正インセンティブノイズ(PiNI)を提案する。
論文参考訳（メタデータ） (2024-12-14T12:58:15Z)
Blue noise for diffusion models [50.99852321110366]
本稿では,画像内および画像間の相関雑音を考慮した拡散モデルを提案する。我々のフレームワークは、勾配流を改善するために、1つのミニバッチ内に画像間の相関を導入することができる。本手法を用いて,各種データセットの質的,定量的な評価を行う。
論文参考訳（メタデータ） (2024-02-07T14:59:25Z)
DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文参考訳（メタデータ） (2023-08-14T17:29:41Z)
Unsupervised speech enhancement with deep dynamical generative speech and noise models [26.051535142743166]
本研究は、クリーン音声モデルとして動的変分オートエンコーダ(DVAE)、ノイズモデルとして非負行列分解(NMF)を用いた教師なし音声強調に関する以前の研究に基づいている。本研究では,NMFノイズモデルにDVAE潜伏変数,雑音観測,あるいはその両方に依存する深部動的生成モデル(DDGM)を置き換えることを提案する。
論文参考訳（メタデータ） (2023-06-13T14:52:35Z)
Inference and Denoise: Causal Inference-based Neural Speech Enhancement [83.4641575757706]
本研究では、雑音の存在を介入としてモデル化することにより、因果推論パラダイムにおける音声強調(SE)課題に対処する。提案した因果推論に基づく音声強調(CISE)は,ノイズ検出器を用いて間欠雑音音声中のクリーンフレームとノイズフレームを分離し,両フレームセットを2つのマスクベース拡張モジュール(EM)に割り当て,ノイズ条件SEを実行する。
論文参考訳（メタデータ） (2022-11-02T15:03:50Z)
Conditional Diffusion Probabilistic Model for Speech Enhancement [101.4893074984667]
本稿では,観測された雑音の音声信号の特徴を拡散・逆過程に組み込む新しい音声強調アルゴリズムを提案する。本実験では, 代表的な生成モデルと比較して, 提案手法の強い性能を示す。
論文参考訳（メタデータ） (2022-02-10T18:58:01Z)
Improving Noise Robustness of Contrastive Speech Representation Learning with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文参考訳（メタデータ） (2021-10-28T20:39:02Z)
A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文参考訳（メタデータ） (2021-07-25T19:23:18Z)
Variational Autoencoder for Speech Enhancement with a Noise-Aware Encoder [30.318947721658862]
本稿では,ノイズ対応エンコーダを用いて,学習段階での雑音情報を含むことを提案する。提案するノイズ認識vaeは,モデルパラメータ数を増加させることなく,全体的な歪みの観点から標準vaeを上回っている。
論文参考訳（メタデータ） (2021-02-17T11:40:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。