論文の概要: Time-Variance Aware Real-Time Speech Enhancement
- arxiv url: http://arxiv.org/abs/2302.13063v1
- Date: Sat, 25 Feb 2023 11:37:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 19:05:43.705906
- Title: Time-Variance Aware Real-Time Speech Enhancement
- Title(参考訳): 時間変化を考慮したリアルタイム音声強調
- Authors: Chengyu Zheng, Yuan Zhou, Xiulian Peng, Yuan Zhang, Yan Lu
- Abstract要約: 現在のエンドツーエンドのディープニューラルネットワーク(DNN)ベースの手法は通常、暗黙的に時間変化成分をモデル化する。
本稿では,DNNベースのエンドツーエンドパイプラインに学習可能なプラグインとして導入可能な動的カーネル生成(DKG)モジュールを提案する。
実験により,DKGモジュールが時間変動シナリオ下でモデルの性能を向上させることを確認した。
- 参考スコア(独自算出の注目度): 27.180179632422853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Time-variant factors often occur in real-world full-duplex communication
applications. Some of them are caused by the complex environment such as
non-stationary environmental noises and varying acoustic path while some are
caused by the communication system such as the dynamic delay between the
far-end and near-end signals. Current end-to-end deep neural network (DNN)
based methods usually model the time-variant components implicitly and can
hardly handle the unpredictable time-variance in real-time speech enhancement.
To explicitly capture the time-variant components, we propose a dynamic kernel
generation (DKG) module that can be introduced as a learnable plug-in to a
DNN-based end-to-end pipeline. Specifically, the DKG module generates a
convolutional kernel regarding to each input audio frame, so that the DNN model
is able to dynamically adjust its weights according to the input signal during
inference. Experimental results verify that DKG module improves the performance
of the model under time-variant scenarios, in the joint acoustic echo
cancellation (AEC) and deep noise suppression (DNS) tasks.
- Abstract(参考訳): 実世界の全二重通信アプリケーションでは時変要因がしばしば発生する。
それらの一部は、非定常環境騒音や様々な音響経路などの複雑な環境によって引き起こされ、一方、遠端信号と近端信号との動的遅延などの通信システムによって引き起こされる。
現在のエンドツーエンドディープニューラルネットワーク(DNN)ベースの手法は、通常、時間変動成分を暗黙的にモデル化し、リアルタイム音声強調における予測不可能な時間分散をほとんど扱えない。
そこで我々は,DNNベースのエンドツーエンドパイプラインの学習可能なプラグインとして導入可能な動的カーネル生成(DKG)モジュールを提案する。
具体的には、DKGモジュールは、各入力オーディオフレームに関する畳み込みカーネルを生成し、DNNモデルは、推論中の入力信号に応じて、その重みを動的に調整することができる。
実験の結果,dkgモジュールは,音響エコーキャンセラ (aec) と深部雑音抑圧 (dns) タスクにおいて,時間変化のシナリオでモデルの性能を向上できることが確認された。
関連論文リスト
- Fast Window-Based Event Denoising with Spatiotemporal Correlation
Enhancement [85.66867277156089]
同時にイベントのスタックを扱うウィンドウベースのイベントデノゲーションを提案する。
空間領域では、実世界の事象と雑音を識別するために、最大後部(MAP)を選択する。
我々のアルゴリズムは、イベントノイズを効果的かつ効率的に除去し、下流タスクの性能を向上させることができる。
論文 参考訳(メタデータ) (2024-02-14T15:56:42Z) - Delayed Memory Unit: Modelling Temporal Dependency Through Delay Gate [16.4160685571157]
リカレントニューラルネットワーク(RNN)は、時間的依存をモデル化する能力で広く認識されている。
本稿では、ゲートRNNのための新しい遅延メモリユニット(DMU)を提案する。
DMUは遅延線構造と遅延ゲートをバニラRNNに組み込み、時間的相互作用を高め、時間的信用割り当てを容易にする。
論文 参考訳(メタデータ) (2023-10-23T14:29:48Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - ProgressiveMotionSeg: Mutually Reinforced Framework for Event-Based
Motion Segmentation [101.19290845597918]
本稿では,動作推定 (ME) モジュールとイベントデノイング (ED) モジュールを相互に強化された方法で共同最適化する。
時間的相関をガイダンスとして、EDモジュールは各イベントが実活動イベントに属するという信頼度を算出し、MEモジュールに送信し、ノイズ抑制のための運動セグメンテーションのエネルギー関数を更新する。
論文 参考訳(メタデータ) (2022-03-22T13:40:26Z) - End-to-End Complex-Valued Multidilated Convolutional Neural Network for
Joint Acoustic Echo Cancellation and Noise Suppression [25.04740291728234]
本稿では、複雑な時間周波数マスクのオフセット補償機能を活用し、エンドツーエンドの複雑なニューラルネットワークアーキテクチャを提案する。
また,同時音声強調による共同エコーと雑音抑圧のための二重マスク手法を提案する。
論文 参考訳(メタデータ) (2021-10-02T07:41:41Z) - Dissecting User-Perceived Latency of On-Device E2E Speech Recognition [34.645194215436966]
我々は,トークン放出遅延とエンドポイント動作に影響を与える要因がユーザ知覚遅延(upl)に大きく影響することを示す。
我々は,最近提案されたアライメント正規化を用いて,ASRとエンドポイントを併用する際のレイテンシと単語エラー率の最良のトレードオフを実現する。
論文 参考訳(メタデータ) (2021-04-06T00:55:11Z) - Neural ODE Processes [64.10282200111983]
NDP(Neural ODE Process)は、Neural ODEの分布によって決定される新しいプロセスクラスである。
我々のモデルは,少数のデータポイントから低次元システムのダイナミクスを捉えることができることを示す。
論文 参考訳(メタデータ) (2021-03-23T09:32:06Z) - Inferring, Predicting, and Denoising Causal Wave Dynamics [3.9407250051441403]
DISTANA(Distributed Artificial Neural Network Architecture)は、グラフ畳み込みニューラルネットワークである。
DISTANAは、再帰パターンが観測されるので、データストリームを飾るのに非常に適していることを示す。
安定かつ正確なクローズドループ予測を数百の時間ステップで生成する。
論文 参考訳(メタデータ) (2020-09-19T08:33:53Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。