論文の概要: Deep Neural Mel-Subband Beamformer for In-car Speech Separation
- arxiv url: http://arxiv.org/abs/2211.12590v1
- Date: Tue, 22 Nov 2022 21:11:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 16:36:56.848051
- Title: Deep Neural Mel-Subband Beamformer for In-car Speech Separation
- Title(参考訳): 車載音声分離のためのディープニューラルメルサブバンドビームフォーマ
- Authors: Vinay Kothapally, Yong Xu, Meng Yu, Shi-Xiong Zhang, Dong Yu
- Abstract要約: 自動車環境下で音声分離を行うためのDLベースメルバンドビームフォーマを提案する。
従来のサブバンドアプローチとは対照的に、我々のフレームワークはメルバンドベースのサブ選択戦略を使用する。
提案するフレームワークは,すべてのSBおよびFBアプローチに対して,より良い分離性能を実現する。
- 参考スコア(独自算出の注目度): 44.58289679847228
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While current deep learning (DL)-based beamforming techniques have been
proved effective in speech separation, they are often designed to process
narrow-band (NB) frequencies independently which results in higher
computational costs and inference times, making them unsuitable for real-world
use. In this paper, we propose DL-based mel-subband spatio-temporal beamformer
to perform speech separation in a car environment with reduced computation cost
and inference time. As opposed to conventional subband (SB) approaches, our
framework uses a mel-scale based subband selection strategy which ensures a
fine-grained processing for lower frequencies where most speech formant
structure is present, and coarse-grained processing for higher frequencies. In
a recursive way, robust frame-level beamforming weights are determined for each
speaker location/zone in a car from the estimated subband speech and noise
covariance matrices. Furthermore, proposed framework also estimates and
suppresses any echoes from the loudspeaker(s) by using the echo reference
signals. We compare the performance of our proposed framework to several NB,
SB, and full-band (FB) processing techniques in terms of speech quality and
recognition metrics. Based on experimental evaluations on simulated and
real-world recordings, we find that our proposed framework achieves better
separation performance over all SB and FB approaches and achieves performance
closer to NB processing techniques while requiring lower computing cost.
- Abstract(参考訳): 現在の深層学習(DL)ベースのビームフォーミング技術は音声分離に有効であることが証明されているが、狭帯域(NB)周波数を独立して処理するように設計されており、計算コストと推論時間が高くなり、実際の使用には適さない。
本稿では,dlベースのメルサブバンド時空間ビームフォーマを提案し,計算コストと推定時間を削減した自動車環境で音声分離を行う。
従来のサブバンド(SB)アプローチとは対照的に,我々のフレームワークでは,ほとんどの音声フォルマント構造が存在する低周波の細粒度処理と高周波の粗粒度処理を実現するメルスケールベースサブバンド選択方式を採用している。
再帰的な方法では、推定サブバンド音声とノイズ共分散行列から、車内の話者位置/ゾーン毎にロバストフレームレベルのビームフォーミング重みを決定する。
さらに,提案フレームワークは,エコー基準信号を用いてスピーカからのエコーを推定し,抑制する。
提案するフレームワークの性能を,音声品質および音声認識指標の観点から,複数のNB,SB,FB処理技術と比較した。
シミュレーションおよび実世界記録の実験的評価結果から,提案手法はsbおよびfbの手法においてより優れた分離性能を達成でき,計算コストを低減しつつnb処理技術に近い性能が得られることがわかった。
関連論文リスト
- High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - A DNN based Normalized Time-frequency Weighted Criterion for Robust
Wideband DoA Estimation [24.175086158375464]
本稿では、T-F領域における候補ステアリングベクトルとフィルタスナップショットとの距離を最小化する正規化時間周波数重み付き基準を提案する。
本手法では固有分解を必要とせず,ノイズスナップショットによる最適化目標の誤認を防止するため,単純な正規化を用いる。
実験により,提案手法は,雑音および残響環境において広く用いられている部分空間法を含む,一般的なDNNに基づくDoA推定法よりも優れていた。
論文 参考訳(メタデータ) (2023-02-20T18:26:52Z) - Inference and Denoise: Causal Inference-based Neural Speech Enhancement [83.4641575757706]
本研究では、雑音の存在を介入としてモデル化することにより、因果推論パラダイムにおける音声強調(SE)課題に対処する。
提案した因果推論に基づく音声強調(CISE)は,ノイズ検出器を用いて間欠雑音音声中のクリーンフレームとノイズフレームを分離し,両フレームセットを2つのマスクベース拡張モジュール(EM)に割り当て,ノイズ条件SEを実行する。
論文 参考訳(メタデータ) (2022-11-02T15:03:50Z) - Speech Enhancement and Dereverberation with Diffusion-based Generative
Models [14.734454356396157]
本稿では,微分方程式に基づく拡散過程について概説する。
提案手法により,30段階の拡散しか行わず,高品質なクリーン音声推定が可能であることを示す。
大規模なクロスデータセット評価では、改良された手法が近年の識別モデルと競合することを示す。
論文 参考訳(メタデータ) (2022-08-11T13:55:12Z) - Direction-Aware Adaptive Online Neural Speech Enhancement with an
Augmented Reality Headset in Real Noisy Conversational Environments [21.493664174262737]
本稿では,拡張現実(AR)ヘッドセットにおけるオンライン音声強調の実用的応答・性能認識開発について述べる。
これは、実際の騒々しいエコー環境(例えばカクテルパーティー)における会話を理解するのに役立つ。
この方法は、話者のうるさい残響音声を転写するための重み付き予測誤差(WPE)と呼ばれるブラインド残響法で用いられる。
論文 参考訳(メタデータ) (2022-07-15T05:14:27Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。
ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。
残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文 参考訳(メタデータ) (2020-04-06T06:34:01Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。