論文の概要: Deep Neural Mel-Subband Beamformer for In-car Speech Separation
- arxiv url: http://arxiv.org/abs/2211.12590v1
- Date: Tue, 22 Nov 2022 21:11:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 16:36:56.848051
- Title: Deep Neural Mel-Subband Beamformer for In-car Speech Separation
- Title(参考訳): 車載音声分離のためのディープニューラルメルサブバンドビームフォーマ
- Authors: Vinay Kothapally, Yong Xu, Meng Yu, Shi-Xiong Zhang, Dong Yu
- Abstract要約: 自動車環境下で音声分離を行うためのDLベースメルバンドビームフォーマを提案する。
従来のサブバンドアプローチとは対照的に、我々のフレームワークはメルバンドベースのサブ選択戦略を使用する。
提案するフレームワークは,すべてのSBおよびFBアプローチに対して,より良い分離性能を実現する。
- 参考スコア(独自算出の注目度): 44.58289679847228
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While current deep learning (DL)-based beamforming techniques have been
proved effective in speech separation, they are often designed to process
narrow-band (NB) frequencies independently which results in higher
computational costs and inference times, making them unsuitable for real-world
use. In this paper, we propose DL-based mel-subband spatio-temporal beamformer
to perform speech separation in a car environment with reduced computation cost
and inference time. As opposed to conventional subband (SB) approaches, our
framework uses a mel-scale based subband selection strategy which ensures a
fine-grained processing for lower frequencies where most speech formant
structure is present, and coarse-grained processing for higher frequencies. In
a recursive way, robust frame-level beamforming weights are determined for each
speaker location/zone in a car from the estimated subband speech and noise
covariance matrices. Furthermore, proposed framework also estimates and
suppresses any echoes from the loudspeaker(s) by using the echo reference
signals. We compare the performance of our proposed framework to several NB,
SB, and full-band (FB) processing techniques in terms of speech quality and
recognition metrics. Based on experimental evaluations on simulated and
real-world recordings, we find that our proposed framework achieves better
separation performance over all SB and FB approaches and achieves performance
closer to NB processing techniques while requiring lower computing cost.
- Abstract(参考訳): 現在の深層学習(DL)ベースのビームフォーミング技術は音声分離に有効であることが証明されているが、狭帯域(NB)周波数を独立して処理するように設計されており、計算コストと推論時間が高くなり、実際の使用には適さない。
本稿では,dlベースのメルサブバンド時空間ビームフォーマを提案し,計算コストと推定時間を削減した自動車環境で音声分離を行う。
従来のサブバンド(SB)アプローチとは対照的に,我々のフレームワークでは,ほとんどの音声フォルマント構造が存在する低周波の細粒度処理と高周波の粗粒度処理を実現するメルスケールベースサブバンド選択方式を採用している。
再帰的な方法では、推定サブバンド音声とノイズ共分散行列から、車内の話者位置/ゾーン毎にロバストフレームレベルのビームフォーミング重みを決定する。
さらに,提案フレームワークは,エコー基準信号を用いてスピーカからのエコーを推定し,抑制する。
提案するフレームワークの性能を,音声品質および音声認識指標の観点から,複数のNB,SB,FB処理技術と比較した。
シミュレーションおよび実世界記録の実験的評価結果から,提案手法はsbおよびfbの手法においてより優れた分離性能を達成でき,計算コストを低減しつつnb処理技術に近い性能が得られることがわかった。
関連論文リスト
- Run-Time Adaptation of Neural Beamforming for Robust Speech Dereverberation and Denoising [15.152748065111194]
本稿では,実環境におけるリアルタイム自動音声認識のための音声強調について述べる。
ノイズの多いエコー混合分光器とディープニューラルネットワーク(DNN)からクリーンドライ音声のマスクを推定し、ビームフォーミングに用いる拡張フィルタを算出する。
しかし、このような教師付きアプローチのパフォーマンスは、ミスマッチした条件下で大幅に劣化する。
論文 参考訳(メタデータ) (2024-10-30T08:32:47Z) - Optimal Transport Maps are Good Voice Converters [58.42556113055807]
本稿では,メル・スペクトログラムや自己教師付き音声モデルの潜在表現など,さまざまなデータ表現に最適なトランスポートアルゴリズムを提案する。
メリースペクトルデータ表現では、Frechet Audio Distance (FAD) を用いて強い結果が得られる。
我々は,限られた参照話者データであっても,最先端の成果を達成し,既存手法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-17T22:48:53Z) - A Lightweight and Real-Time Binaural Speech Enhancement Model with Spatial Cues Preservation [19.384404014248762]
バイノーラル音声強調は、聴覚装置から受信される雑音信号の音質と可聴性を改善することを目的としている。
既存の手法は、ノイズ低減(NR)と空間的手がかり(SCP)の精度と保存の妥協に悩まされることが多い。
本稿では、低周波帯域をフィルタし、残りを保ち、NRに優れた学習ベース軽量複合畳み込みネットワーク(LBCCN)を提案する。
論文 参考訳(メタデータ) (2024-09-19T03:52:50Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Inference and Denoise: Causal Inference-based Neural Speech Enhancement [83.4641575757706]
本研究では、雑音の存在を介入としてモデル化することにより、因果推論パラダイムにおける音声強調(SE)課題に対処する。
提案した因果推論に基づく音声強調(CISE)は,ノイズ検出器を用いて間欠雑音音声中のクリーンフレームとノイズフレームを分離し,両フレームセットを2つのマスクベース拡張モジュール(EM)に割り当て,ノイズ条件SEを実行する。
論文 参考訳(メタデータ) (2022-11-02T15:03:50Z) - Speech Enhancement and Dereverberation with Diffusion-based Generative
Models [14.734454356396157]
本稿では,微分方程式に基づく拡散過程について概説する。
提案手法により,30段階の拡散しか行わず,高品質なクリーン音声推定が可能であることを示す。
大規模なクロスデータセット評価では、改良された手法が近年の識別モデルと競合することを示す。
論文 参考訳(メタデータ) (2022-08-11T13:55:12Z) - Direction-Aware Adaptive Online Neural Speech Enhancement with an
Augmented Reality Headset in Real Noisy Conversational Environments [21.493664174262737]
本稿では,拡張現実(AR)ヘッドセットにおけるオンライン音声強調の実用的応答・性能認識開発について述べる。
これは、実際の騒々しいエコー環境(例えばカクテルパーティー)における会話を理解するのに役立つ。
この方法は、話者のうるさい残響音声を転写するための重み付き予測誤差(WPE)と呼ばれるブラインド残響法で用いられる。
論文 参考訳(メタデータ) (2022-07-15T05:14:27Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。
ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。
残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文 参考訳(メタデータ) (2020-04-06T06:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。