論文の概要: End-to-End Complex-Valued Multidilated Convolutional Neural Network for
Joint Acoustic Echo Cancellation and Noise Suppression
- arxiv url: http://arxiv.org/abs/2110.00745v1
- Date: Sat, 2 Oct 2021 07:41:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 03:41:40.757749
- Title: End-to-End Complex-Valued Multidilated Convolutional Neural Network for
Joint Acoustic Echo Cancellation and Noise Suppression
- Title(参考訳): 複合重畳畳み込み型畳み込みニューラルネットワークによる複合音響エコーキャンセラと雑音抑制
- Authors: Karn N. Watcharasupat, Thi Ngoc Tho Nguyen, Woon-Seng Gan, Shengkui
Zhao, and Bin Ma
- Abstract要約: 本稿では、複雑な時間周波数マスクのオフセット補償機能を活用し、エンドツーエンドの複雑なニューラルネットワークアーキテクチャを提案する。
また,同時音声強調による共同エコーと雑音抑圧のための二重マスク手法を提案する。
- 参考スコア(独自算出の注目度): 25.04740291728234
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Echo and noise suppression is an integral part of a full-duplex communication
system. Many recent acoustic echo cancellation (AEC) systems rely on a separate
adaptive filtering module for linear echo suppression and a neural module for
residual echo suppression. However, not only do adaptive filtering modules
require convergence and remain susceptible to changes in acoustic environments,
but this two-stage framework also often introduces unnecessary delays to the
AEC system when neural modules are already capable of both linear and nonlinear
echo suppression. In this paper, we exploit the offset-compensating ability of
complex time-frequency masks and propose an end-to-end complex-valued neural
network architecture. The building block of the proposed model is a
pseudocomplex extension based on the densely-connected multidilated DenseNet
(D3Net) building block, resulting in a very small network of only 354K
parameters. The architecture utilized the multi-resolution nature of the D3Net
building blocks to eliminate the need for pooling, allowing the network to
extract features using large receptive fields without any loss of output
resolution. We also propose a dual-mask technique for joint echo and noise
suppression with simultaneous speech enhancement. Evaluation on both synthetic
and real test sets demonstrated promising results across multiple energy-based
metrics and perceptual proxies.
- Abstract(参考訳): エコーとノイズ抑圧は、全二重通信システムにおいて不可欠な部分である。
最近の多くの音響エコーキャンセレーション(aec)システムは、線形エコー抑圧のための分離適応フィルタリングモジュールと、残留エコー抑圧のためのニューラルモジュールに依存している。
しかしながら、適応的なフィルタリングモジュールは収束を必要とし、音響環境の変化に影響を受けやすいだけでなく、この2段階のフレームワークは、神経モジュールが既に線形および非線形エコー抑圧が可能な場合、しばしばAECシステムに不要な遅延をもたらす。
本稿では,複雑な時間周波数マスクのオフセット補償機能を活用し,エンドツーエンドの複雑なニューラルネットワークアーキテクチャを提案する。
提案モデルのビルディングブロックは, 密結合型DenseNet (D3Net) ビルディングブロックに基づく擬似複雑拡張であり, 354Kパラメータの非常に小さなネットワークとなる。
このアーキテクチャはD3Netビルディングブロックのマルチレゾリューション特性を利用してプールの必要性をなくし、出力解像度を失うことなく大きな受信フィールドを使って特徴を抽出した。
また,同時音声強調による統合エコーと雑音抑圧のためのデュアルマスク手法を提案する。
人工と実両方のテストセットの評価は、複数のエネルギーベースのメトリクスと知覚プロキシで有望な結果を示した。
関連論文リスト
- Time-Variance Aware Real-Time Speech Enhancement [27.180179632422853]
現在のエンドツーエンドのディープニューラルネットワーク(DNN)ベースの手法は通常、暗黙的に時間変化成分をモデル化する。
本稿では,DNNベースのエンドツーエンドパイプラインに学習可能なプラグインとして導入可能な動的カーネル生成(DKG)モジュールを提案する。
実験により,DKGモジュールが時間変動シナリオ下でモデルの性能を向上させることを確認した。
論文 参考訳(メタデータ) (2023-02-25T11:37:35Z) - Speech-enhanced and Noise-aware Networks for Robust Speech Recognition [25.279902171523233]
音声強調と音声認識を協調的に最適化するために,2つのカスケードニューラルネットワーク構造に基づく雑音認識学習フレームワークを提案する。
提案した2つのシステムは,オーロラ4タスクにおいてそれぞれ3.90%と3.55%の単語誤り率(WER)を達成する。
CNN-TDNNF ベースのシステムは,Bigram と Trigram の言語モデルを用いた復号化システムと比較して,それぞれ 15.20% と 33.53% の WER 削減を実現している。
論文 参考訳(メタデータ) (2022-03-25T15:04:51Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Deep Residual Echo Suppression with A Tunable Tradeoff Between Signal
Distortion and Echo Suppression [13.558688470594676]
UNetニューラルネットワークは、線形音響エコーキャンセラの出力をスペクトル領域の所望の信号にマッピングする。
このシステムは136万のパラメータを使用し、毎秒1.6ギガ浮動小数点演算と10メガバイトのメモリを必要とする。
論文 参考訳(メタデータ) (2021-06-25T09:49:18Z) - Conditioning Trick for Training Stable GANs [70.15099665710336]
本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱する条件付け手法を提案する。
我々は、生成元をシュア分解のスペクトル領域で計算された実サンプルの正規化関数から逸脱するように強制する。
論文 参考訳(メタデータ) (2020-10-12T16:50:22Z) - Deep Denoising Neural Network Assisted Compressive Channel Estimation
for mmWave Intelligent Reflecting Surfaces [99.34306447202546]
本稿では,mmWave IRSシステムに対するディープデノイングニューラルネットワークを用いた圧縮チャネル推定法を提案する。
我々はまず、受信チェーンをほとんど使わず、アップリンクのユーザ-IRSチャネルを推定するハイブリッド・パッシブ/アクティブIRSアーキテクチャを導入する。
完全チャネル行列は、圧縮センシングに基づいて限られた測定値から再構成することができる。
論文 参考訳(メタデータ) (2020-06-03T12:18:57Z) - Nonlinear Residual Echo Suppression Based on Multi-stream Conv-TasNet [22.56178941790508]
完全畳み込み時間領域音声分離ネットワーク(Conv-TasNet)の修正に基づく残響抑圧手法を提案する。
線形音響エコーキャンセラシステムの残差信号と適応フィルタの出力の両方を用いて、Conv-TasNetの複数のストリームを形成する。
論文 参考訳(メタデータ) (2020-05-15T16:41:16Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。