論文の概要: Unsupervised Blind Speech Separation with a Diffusion Prior
- arxiv url: http://arxiv.org/abs/2505.05657v1
- Date: Thu, 08 May 2025 21:34:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.090265
- Title: Unsupervised Blind Speech Separation with a Diffusion Prior
- Title(参考訳): 拡散前処理による非教師付きブラインド音声分離
- Authors: Zhongweiyang Xu, Xulin Fan, Zhong-Qiu Wang, Xilin Jiang, Romit Roy Choudhury,
- Abstract要約: ブラインド音声分離(ブラインド音声分離、BSS)は、マイクロフォンアレイによって記録された音声の混合から複数の音声ソースを分離することを目的としている。
本稿では,非教師付き,配列に依存しない,生成的な方法でBSS問題を解決するためのArrayDPSを提案する。
- 参考スコア(独自算出の注目度): 15.51525013228644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Blind Speech Separation (BSS) aims to separate multiple speech sources from audio mixtures recorded by a microphone array. The problem is challenging because it is a blind inverse problem, i.e., the microphone array geometry, the room impulse response (RIR), and the speech sources, are all unknown. We propose ArrayDPS to solve the BSS problem in an unsupervised, array-agnostic, and generative manner. The core idea builds on diffusion posterior sampling (DPS), but unlike DPS where the likelihood is tractable, ArrayDPS must approximate the likelihood by formulating a separate optimization problem. The solution to the optimization approximates room acoustics and the relative transfer functions between microphones. These approximations, along with the diffusion priors, iterate through the ArrayDPS sampling process and ultimately yield separated voice sources. We only need a simple single-speaker speech diffusion model as a prior along with the mixtures recorded at the microphones; no microphone array information is necessary. Evaluation results show that ArrayDPS outperforms all baseline unsupervised methods while being comparable to supervised methods in terms of SDR. Audio demos are provided at: https://arraydps.github.io/ArrayDPSDemo/.
- Abstract(参考訳): ブラインド音声分離(ブラインド音声分離、BSS)は、マイクロフォンアレイによって記録された音声の混合から複数の音声ソースを分離することを目的としている。
この問題は、マイクロフォンアレイ幾何学、室内インパルス応答(RIR)、および音声源など、盲目な逆問題であるからである。
本研究では,非教師付き,配列に依存しない,生成的な方法でBSS問題を解決するためのArrayDPSを提案する。
中心となるアイデアは拡散後サンプリング(DPS)に基づいているが、可能性の抽出が可能なDPSとは異なり、ArrayDPSは別の最適化問題を定式化してその可能性の近似を行う必要がある。
最適化の解法は、室内音響とマイクロホン間の相対伝達関数を近似する。
これらの近似は拡散先行値とともに、ArrayDPSサンプリングプロセスを通して繰り返し、最終的に分離された音声源を生成する。
マイクロホンに記録された混合情報とともに,従来の単一話者音声拡散モデルも必要であり,マイクロホンアレイ情報も不要である。
評価結果から,ArrayDPSは,SDRにおいて教師付き手法に匹敵する性能を保ちながら,すべてのベースラインの教師なし手法よりも優れていた。
オーディオデモは、https://arraydps.github.io/ArrayDPSDemo/.com/で提供されている。
関連論文リスト
- ASoBO: Attentive Beamformer Selection for Distant Speaker Diarization in Meetings [4.125756306660331]
話者ダイアリゼーション(SD)は、同一話者に属する音声セグメントをグループ化することを目的としている。
ビームフォーミング(ビームフォーミング、つまり空間フィルタリング)は、マルチマイクロフォンオーディオデータを処理する一般的な方法である。
本稿では,固定空間フィルタのバンクの出力を選択する自己注意型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-05T13:28:28Z) - UNSSOR: Unsupervised Neural Speech Separation by Leveraging
Over-determined Training Mixtures [60.879679764741624]
残響状態においては、各マイクは異なる場所で複数の話者の混合信号を取得する。
我々は、$textbfu$nsupervised $textbfn$euralのアルゴリズムUNSSORを提案する。
この損失は、教師なし話者の分離を促進することが示される。
論文 参考訳(メタデータ) (2023-05-31T17:28:02Z) - Separate And Diffuse: Using a Pretrained Diffusion Model for Improving
Source Separation [99.19786288094596]
上界をランダムな生成モデルに一般化する方法を示す。
複数のベンチマークで2, 3, 5, 10, 20人の話者に最先端の結果を示す。
論文 参考訳(メタデータ) (2023-01-25T18:21:51Z) - Diffusion Model Based Posterior Sampling for Noisy Linear Inverse Problems [14.809545109705256]
本稿では、簡単な閉形式近似を確率スコアに提案することにより、高速で効果的な解を提案する。
拡散モデルとフローベースモデルの両方において、様々な雑音線形逆問題に対して広範な実験を行う。
提案手法は,全ての基本手法よりもはるかに高速でありながら,高い競争力あるいはより優れた復元性能を示す。
論文 参考訳(メタデータ) (2022-11-20T01:09:49Z) - Single-channel speech separation using Soft-minimum Permutation
Invariant Training [60.99112031408449]
教師付き音声分離における長寿命問題は、それぞれの分離された音声信号の正しいラベルを見つけることである。
Permutation Invariant Training (PIT) はラベルあいまいさ問題に対処する上で有望な解決策であることが示されている。
そこで本研究では,PITの不効率に対処する確率的最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-16T17:25:05Z) - Continuous Speech Separation with Ad Hoc Microphone Arrays [35.87274524040486]
音声分離は複数話者音声認識に有効であることが示された。
本稿では,このアプローチを連続音声分離に拡張する。
単一話者セグメントにおける音声問題を緩和する2つの手法を提案する。
論文 参考訳(メタデータ) (2021-03-03T13:01:08Z) - Multi-microphone Complex Spectral Mapping for Utterance-wise and
Continuous Speech Separation [79.63545132515188]
残響条件下での話者分離のためのマルチマイクロホン複合スペクトルマッピングを提案する。
本システムは,所定の形状に配置された固定数のマイクロホンに基づいて,室内インパルス応答のシミュレーションに基づいて学習する。
シミュレーションされたSMS-WSJコーパスと実記録したLibriCSSデータセット上で,最先端の分離性能が得られる。
論文 参考訳(メタデータ) (2020-10-04T22:13:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。