論文の概要: Conditional Diffusion Model for Target Speaker Extraction
- arxiv url: http://arxiv.org/abs/2310.04791v1
- Date: Sat, 7 Oct 2023 12:48:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 15:36:59.527367
- Title: Conditional Diffusion Model for Target Speaker Extraction
- Title(参考訳): ターゲット話者抽出のための条件拡散モデル
- Authors: Theodor Nguyen, Guangzhi Sun, Xianrui Zheng, Chao Zhang, Philip C
Woodland
- Abstract要約: スコアベース生成モデルに基づく生成対象話者抽出手法であるDiffSpExを提案する。
DiffSpExのポテンシャルはWSJ0-2mixデータセットで示され、SI-SDRは12.9dB、NISQAスコアは3.56である。
- 参考スコア(独自算出の注目度): 16.44828405343424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose DiffSpEx, a generative target speaker extraction method based on
score-based generative modelling through stochastic differential equations.
DiffSpEx deploys a continuous-time stochastic diffusion process in the complex
short-time Fourier transform domain, starting from the target speaker source
and converging to a Gaussian distribution centred on the mixture of sources.
For the reverse-time process, a parametrised score function is conditioned on a
target speaker embedding to extract the target speaker from the mixture of
sources. We utilise ECAPA-TDNN target speaker embeddings and condition the
score function alternately on the SDE time embedding and the target speaker
embedding. The potential of DiffSpEx is demonstrated with the WSJ0-2mix
dataset, achieving an SI-SDR of 12.9 dB and a NISQA score of 3.56. Moreover, we
show that fine-tuning a pre-trained DiffSpEx model to a specific speaker
further improves performance, enabling personalisation in target speaker
extraction.
- Abstract(参考訳): 確率微分方程式によるスコアベース生成モデルに基づく生成対象話者抽出法であるDiffSpExを提案する。
DiffSpExは、複雑な短時間フーリエ変換領域において、ターゲット話者源から始まり、ソースの混合を中心とするガウス分布に収束する連続的確率拡散過程をデプロイする。
逆時間処理では、ターゲットスピーカ埋め込み上にパラメータスコア関数を条件付けして、ターゲットスピーカをソースの混合から抽出する。
ECAPA-TDNNターゲット話者埋め込みとスコア関数をSDE時間埋め込みとターゲット話者埋め込みに交互に適用する。
DiffSpExのポテンシャルはWSJ0-2mixデータセットで示され、SI-SDRは12.9dB、NISQAスコアは3.56である。
さらに、訓練済みのDiffSpExモデルを特定の話者に微調整することで、さらに性能が向上し、ターゲット話者抽出におけるパーソナライズが可能となることを示す。
関連論文リスト
- DiffATR: Diffusion-based Generative Modeling for Audio-Text Retrieval [49.076590578101985]
ノイズから関節分布を生成する拡散型ATRフレームワーク(DiffATR)を提案する。
優れたパフォーマンスを持つAudioCapsとClothoデータセットの実験は、我々のアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2024-09-16T06:33:26Z) - DiffSHEG: A Diffusion-Based Approach for Real-Time Speech-driven Holistic 3D Expression and Gesture Generation [72.85685916829321]
DiffSHEGは、任意の長さの音声駆動型ホロスティック3次元表現とジェスチャー生成のための拡散に基づくアプローチである。
DiffSHEGは、表現的および同期的動作のリアルタイム生成を可能にすることで、デジタル人間とエンボディエージェントの開発における様々な応用の可能性を示した。
論文 参考訳(メタデータ) (2024-01-09T11:38:18Z) - Exploring Iterative Refinement with Diffusion Models for Video Grounding [17.435735275438923]
ビデオグラウンドイングは、所定の文クエリに対応する未編集ビデオにおいて、ターゲットモーメントをローカライズすることを目的としている。
条件生成タスクとしてビデオグラウンドを定式化する拡散モデルを用いた新しいフレームワークであるDiffusionVGを提案する。
論文 参考訳(メタデータ) (2023-10-26T07:04:44Z) - Diffusion-based 3D Object Detection with Random Boxes [58.43022365393569]
既存のアンカーベースの3D検出方法は、アンカーの実証的な設定に依存しており、アルゴリズムはエレガンスを欠いている。
提案するDiff3Detは,検出ボックスを生成対象として考慮し,拡散モデルから3次元オブジェクト検出のための提案生成へ移行する。
推論段階では、モデルは予測結果にランダムボックスのセットを徐々に洗練する。
論文 参考訳(メタデータ) (2023-09-05T08:49:53Z) - Conformer-based Target-Speaker Automatic Speech Recognition for
Single-Channel Audio [13.648878603097764]
単一チャネル話者自動音声認識のための非自己回帰型エンドツーエンド時間周波数領域アーキテクチャを提案する。
提案されたモデルはNVIDIA NeMoツールキットを通じてオープンソース化される予定である。
論文 参考訳(メタデータ) (2023-08-09T20:51:54Z) - SE-Bridge: Speech Enhancement with Consistent Brownian Bridge [18.37042387650827]
音声強調(SE)の新しい手法であるSE-Bridgeを提案する。
提案手法は,同一のPF-ODE軌道上の任意の音声状態が同一の初期状態に対応することを保証する一貫性モデルに基づく。
Brownian Bridgeプロセスを統合することで、モデルは敵の訓練なしに高信頼度音声サンプルを生成することができる。
論文 参考訳(メタデータ) (2023-05-23T08:06:36Z) - Diffusion-based Generative Speech Source Separation [27.928990101986862]
微分方程式(SDE)のスコアマッチングに基づく新しい単一チャネルソース分離法であるDiffSepを提案する。
WSJ0 2mixデータセットの実験では、メソッドの可能性が示されています。
この手法は音声強調にも適しており,VoiceBank-DEMANDデータセットの先行処理と競合する性能を示す。
論文 参考訳(メタデータ) (2022-10-31T13:46:55Z) - End-to-End Multi-speaker ASR with Independent Vector Analysis [80.83577165608607]
マルチチャンネル・マルチスピーカ自動音声認識のためのエンドツーエンドシステムを開発した。
本稿では, 独立ベクトル解析(IVA)のパラダイムを基礎として, ソース分離と収差分離のパラダイムを提案する。
論文 参考訳(メタデータ) (2022-04-01T05:45:33Z) - SpEx: Multi-Scale Time Domain Speaker Extraction Network [89.00319878262005]
話者抽出は、ターゲット話者の声を複数話者環境から抽出することで、人間の選択的な聴覚的注意を模倣することを目的としている。
周波数領域の抽出を行い、抽出した大きさと推定位相スペクトルから時間領域信号を再構成することが一般的である。
本研究では,混合音声を音声信号を大域・位相スペクトルに分解する代わりに,マルチスケールの埋め込み係数に変換する時間領域話者抽出ネットワーク(SpEx)を提案する。
論文 参考訳(メタデータ) (2020-04-17T16:13:06Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。