論文の概要: VINP: Variational Bayesian Inference with Neural Speech Prior for Joint ASR-Effective Speech Dereverberation and Blind RIR Identification
- arxiv url: http://arxiv.org/abs/2502.07205v1
- Date: Tue, 11 Feb 2025 02:54:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:08:34.889599
- Title: VINP: Variational Bayesian Inference with Neural Speech Prior for Joint ASR-Effective Speech Dereverberation and Blind RIR Identification
- Title(参考訳): VINP: ASR-Effective Speech Dereverberation と Blind RIR 同定のためのニューラルネットワークによる変分ベイズ推論
- Authors: Pengyu Wang, Ying Fang, Xiaofei Li,
- Abstract要約: 本研究は, ニューラルスピーチ先行(VINP)を用いた変分ベイズ推論フレームワークを提案する。
単チャンネル音声の発声実験では、人間の知覚に関連するほとんどの指標において、VINPが高度なレベルに達することが示されている。
- 参考スコア(独自算出の注目度): 9.726628816336651
- License:
- Abstract: Reverberant speech, denoting the speech signal degraded by the process of reverberation, contains crucial knowledge of both anechoic source speech and room impulse response (RIR). This work proposes a variational Bayesian inference (VBI) framework with neural speech prior (VINP) for joint speech dereverberation and blind RIR identification. In VINP, a probabilistic signal model is constructed in the time-frequency (T-F) domain based on convolution transfer function (CTF) approximation. For the first time, we propose using an arbitrary discriminative dereverberation deep neural network (DNN) to predict the prior distribution of anechoic speech within a probabilistic model. By integrating both reverberant speech and the anechoic speech prior, VINP yields the maximum a posteriori (MAP) and maximum likelihood (ML) estimations of the anechoic speech spectrum and CTF filter, respectively. After simple transformations, the waveforms of anechoic speech and RIR are estimated. Moreover, VINP is effective for automatic speech recognition (ASR) systems, which sets it apart from most deep learning (DL)-based single-channel dereverberation approaches. Experiments on single-channel speech dereverberation demonstrate that VINP reaches an advanced level in most metrics related to human perception and displays unquestionable state-of-the-art (SOTA) performance in ASR-related metrics. For blind RIR identification, experiments indicate that VINP attains the SOTA level in blind estimation of reverberation time at 60 dB (RT60) and direct-to-reverberation ratio (DRR). Codes and audio samples are available online.
- Abstract(参考訳): 残響音声は、残響の過程で劣化した音声信号を表すものであり、無響音源音声と室内インパルス応答(RIR)の両方の重要な知識を含んでいる。
本研究は, ニューラルスピーチ先行(VINP)を用いた変分ベイズ推論(VBI)フレームワークを提案する。
VINPでは、畳み込み伝達関数(CTF)近似に基づいて、時間周波数(T-F)領域で確率的信号モデルを構築する。
確率論的モデルにおいて,まず任意の識別的除去深度ニューラルネットワーク(DNN)を用いて,無響音声の事前分布を予測することを提案する。
残響音声と無響音声を予め統合することにより、VINPはそれぞれ、無響音声スペクトルの最大アプティ (MAP) と最大アプティ (ML) を推定する。
簡単な変換の後、無響音声とRIRの波形を推定する。
さらに、VINPは、ほとんどの深層学習(DL)に基づく単一チャネルのデバーベレーションアプローチとは分離した自動音声認識(ASR)システムに有効である。
単チャンネル音声の残響実験により、VINPは人間の知覚に関連するほとんどの指標において高度なレベルに達し、ASR関連の指標では疑わしいSOTA(State-of-the-art)のパフォーマンスを示す。
ブラインドRIRの同定では、VINPは60dB(RT60)とDRR(Direct-to-reverberation ratio)の残響時間のブラインド推定においてSOTAレベルに達することが示されている。
コードとオーディオサンプルはオンラインで入手できる。
関連論文リスト
- Run-Time Adaptation of Neural Beamforming for Robust Speech Dereverberation and Denoising [15.152748065111194]
本稿では,実環境におけるリアルタイム自動音声認識のための音声強調について述べる。
ノイズの多いエコー混合分光器とディープニューラルネットワーク(DNN)からクリーンドライ音声のマスクを推定し、ビームフォーミングに用いる拡張フィルタを算出する。
しかし、このような教師付きアプローチのパフォーマンスは、ミスマッチした条件下で大幅に劣化する。
論文 参考訳(メタデータ) (2024-10-30T08:32:47Z) - Unsupervised Blind Joint Dereverberation and Room Acoustics Estimation with Diffusion Models [21.669363620480333]
BUDDyと呼ばれるブラインド・デバーベーションと室内インパルス応答推定の教師なし手法を提案する。
室内のインパルス応答が不明な視覚的シナリオでは、BUDDyは音声の発声に成功している。
一般化に苦しむ教師付き手法とは異なり、BUDDyは異なる音響条件にシームレスに適応する。
論文 参考訳(メタデータ) (2024-08-14T11:31:32Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - Diffusion Posterior Sampling for Informed Single-Channel Dereverberation [15.16865739526702]
拡散モデルを用いた条件生成に基づく情報単一チャネルのデバーベレーション手法を提案する。
室内インパルス応答の知識により、逆拡散により無響発話が生成される。
提案手法は, 計測ノイズに対して, 最先端のインフォメーション・シングルチャネル・デバベーション法に比べ, かなり頑健である。
論文 参考訳(メタデータ) (2023-06-21T14:14:05Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Blind Speech Separation and Dereverberation using Neural Beamforming [28.7807578839021]
本稿では,Blind Speech Separation and Dereverberation (BSSD) ネットワークについて述べる。
話者分離は、予め定義された空間的手がかりのセットによって導かれる。
残響は神経ビームフォーミングを用いて行われ、話者識別は埋め込みベクトルと三重項マイニングによって支援される。
論文 参考訳(メタデータ) (2021-03-24T18:43:52Z) - Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。
ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。
残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文 参考訳(メタデータ) (2020-04-06T06:34:01Z) - Voice trigger detection from LVCSR hypothesis lattices using
bidirectional lattice recurrent neural networks [5.844015313757266]
ニューラルネットワークを用いてサーバ側連続音声認識器の仮説格子を後処理することにより、音声対応パーソナルアシスタントの偽音声トリガを低減する手法を提案する。
まず、既知の手法を用いて、仮説格子からトリガーフレーズの後方確率を推定して検出し、さらに、より明示的にデータ駆動で識別的な方法で格子を処理する統計モデルについて検討する。
論文 参考訳(メタデータ) (2020-02-29T17:02:41Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。