論文の概要: Diffusion-Based Unsupervised Audio-Visual Speech Separation in Noisy Environments with Noise Prior
- arxiv url: http://arxiv.org/abs/2509.14379v1
- Date: Wed, 17 Sep 2025 19:25:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:52.953309
- Title: Diffusion-Based Unsupervised Audio-Visual Speech Separation in Noisy Environments with Noise Prior
- Title(参考訳): 雑音を優先した雑音環境下での拡散に基づく教師なし音声分離
- Authors: Yochai Yemini, Rami Ben-Ari, Sharon Gannot, Ethan Fetaya,
- Abstract要約: クリーン音声と構造化雑音成分の両方をモデル化する生成的教師なし手法を提案する。
提案手法では,視覚的手がかりを取り入れた音声-視覚的スコアモデルを用いて,前代未聞の強い生成音声として機能する。
実験の結果,提案手法の有効性が示された。
- 参考スコア(独自算出の注目度): 24.815262863931334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we address the problem of single-microphone speech separation in the presence of ambient noise. We propose a generative unsupervised technique that directly models both clean speech and structured noise components, training exclusively on these individual signals rather than noisy mixtures. Our approach leverages an audio-visual score model that incorporates visual cues to serve as a strong generative speech prior. By explicitly modelling the noise distribution alongside the speech distribution, we enable effective decomposition through the inverse problem paradigm. We perform speech separation by sampling from the posterior distributions via a reverse diffusion process, which directly estimates and removes the modelled noise component to recover clean constituent signals. Experimental results demonstrate promising performance, highlighting the effectiveness of our direct noise modelling approach in challenging acoustic environments.
- Abstract(参考訳): 本稿では,環境雑音の存在下での単一マイクロホン音声分離の問題に対処する。
クリーン音声と構造化雑音成分の両方を直接モデル化し,ノイズ混在ではなく個々の信号のみを学習する生成的教師なし手法を提案する。
提案手法では,視覚的手がかりを取り入れた音声-視覚的スコアモデルを用いて,前代未聞の強い生成音声として機能する。
音声分布とともに雑音分布を明示的にモデル化することにより、逆問題パラダイムによる効果的な分解を可能にする。
本研究では, 後部分布から逆拡散法による音声分離を行い, モデル化された雑音成分を直接推定・除去し, クリーンな成分信号の復元を行う。
実験結果から有望な性能を示し,難聴環境における直接ノイズモデリング手法の有効性を強調した。
関連論文リスト
- SEED: Speaker Embedding Enhancement Diffusion Model [27.198463567915386]
実世界のアプリケーションに話者認識システムを配置する際の最大の課題は、環境ミスマッチによる性能劣化である。
本稿では,事前学習した話者認識モデルから抽出した話者埋め込みを拡散ベースで取得し,洗練された埋め込みを生成する手法を提案する。
本手法は,従来のシナリオの性能を維持しつつ,ベースラインモデルよりも19.6%の精度で認識精度を向上させることができる。
論文 参考訳(メタデータ) (2025-05-22T15:38:37Z) - Divide and Conquer: Heterogeneous Noise Integration for Diffusion-based Adversarial Purification [75.09791002021947]
既存の浄化法は,前向き拡散過程を通じて一定のノイズを発生させ,その後に逆の処理を行い,クリーンな例を回復させることによって,対向的摂動を妨害することを目的としている。
この方法は、前処理の均一な操作が、対向的摂動と闘いながら通常のピクセルを損なうため、根本的な欠陥がある。
ニューラルネットワークの解釈可能性に基づく異種浄化戦略を提案する。
本手法は,被写体モデルが注目する特定の画素に対して高強度雑音を決定的に印加する一方,残りの画素は低強度雑音のみを被写体とする。
論文 参考訳(メタデータ) (2025-03-03T11:00:25Z) - Diffusion-based Unsupervised Audio-visual Speech Enhancement [26.937216751657697]
本稿では,新しい教師なし音声-視覚音声強調(AVSE)手法を提案する。
拡散に基づく音声視覚音声生成モデルと非負行列分解(NMF)ノイズモデルを組み合わせる。
実験結果から,提案手法は音声のみのアプローチより優れているだけでなく,近年の教師付き生成型AVSE法よりも優れていたことが確認された。
論文 参考訳(メタデータ) (2024-10-04T12:22:54Z) - Diffusion-based speech enhancement with a weighted generative-supervised
learning loss [0.0]
拡散に基づく生成モデルは近年,音声強調(SE)において注目を集めている。
そこで本研究では,従来の拡散訓練目標を平均二乗誤差(MSE)損失で拡張することを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:35Z) - Noise-aware Speech Enhancement using Diffusion Probabilistic Model [35.17225451626734]
拡散モデルにおける逆過程を導出する雑音固有情報を抽出する雑音認識音声強調(NASE)手法を提案する。
NASEは任意の拡散SEモデルに一般化できるプラグイン・アンド・プレイモジュールであることが示されている。
論文 参考訳(メタデータ) (2023-07-16T12:46:11Z) - Inference and Denoise: Causal Inference-based Neural Speech Enhancement [83.4641575757706]
本研究では、雑音の存在を介入としてモデル化することにより、因果推論パラダイムにおける音声強調(SE)課題に対処する。
提案した因果推論に基づく音声強調(CISE)は,ノイズ検出器を用いて間欠雑音音声中のクリーンフレームとノイズフレームを分離し,両フレームセットを2つのマスクベース拡張モジュール(EM)に割り当て,ノイズ条件SEを実行する。
論文 参考訳(メタデータ) (2022-11-02T15:03:50Z) - Speech Enhancement and Dereverberation with Diffusion-based Generative
Models [14.734454356396157]
本稿では,微分方程式に基づく拡散過程について概説する。
提案手法により,30段階の拡散しか行わず,高品質なクリーン音声推定が可能であることを示す。
大規模なクロスデータセット評価では、改良された手法が近年の識別モデルと競合することを示す。
論文 参考訳(メタデータ) (2022-08-11T13:55:12Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。
ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。
残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文 参考訳(メタデータ) (2020-04-06T06:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。