論文の概要: DeepVQE: Real Time Deep Voice Quality Enhancement for Joint Acoustic
Echo Cancellation, Noise Suppression and Dereverberation
- arxiv url: http://arxiv.org/abs/2306.03177v1
- Date: Mon, 5 Jun 2023 18:37:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 18:51:08.980075
- Title: DeepVQE: Real Time Deep Voice Quality Enhancement for Joint Acoustic
Echo Cancellation, Noise Suppression and Dereverberation
- Title(参考訳): deepvqe:ジョイント音響エコーキャンセラ、ノイズ抑圧、残響除去のためのリアルタイム音声品質向上
- Authors: Evgenii Indenbom, Nicolae-Catalin Ristea, Ando Saabas, Tanel Parnamaa,
Jegor Guzvin, Ross Cutler
- Abstract要約: 本稿では、残差畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)に基づく、DeepVQEと呼ばれるリアルタイムのクロスアテンションディープモデルを提案する。
モデルの各コンポーネントのコントリビューションを分析して、全体的なパフォーマンスを実現する。
ICASSP 2023 Acoustic Echo Challenge とICASSP 2023 Deep Noise Suppression Challenge テストセットの非個人化トラックにおけるDeepVQEの最先端性能は、単一のモデルが優れたパフォーマンスで複数のタスクを処理可能であることを示している。
- 参考スコア(独自算出の注目度): 12.734839065028547
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Acoustic echo cancellation (AEC), noise suppression (NS) and dereverberation
(DR) are an integral part of modern full-duplex communication systems. As the
demand for teleconferencing systems increases, addressing these tasks is
required for an effective and efficient online meeting experience. Most prior
research proposes solutions for these tasks separately, combining them with
digital signal processing (DSP) based components, resulting in complex
pipelines that are often impractical to deploy in real-world applications. This
paper proposes a real-time cross-attention deep model, named DeepVQE, based on
residual convolutional neural networks (CNNs) and recurrent neural networks
(RNNs) to simultaneously address AEC, NS, and DR. We conduct several ablation
studies to analyze the contributions of different components of our model to
the overall performance. DeepVQE achieves state-of-the-art performance on
non-personalized tracks from the ICASSP 2023 Acoustic Echo Cancellation
Challenge and ICASSP 2023 Deep Noise Suppression Challenge test sets, showing
that a single model can handle multiple tasks with excellent performance.
Moreover, the model runs in real-time and has been successfully tested for the
Microsoft Teams platform.
- Abstract(参考訳): 音響エコーキャンセレーション(aec)、ノイズ抑圧(ns)、デバーバレーション(dr)は、現代の完全二重通信システムにおいて不可欠な部分である。
テレ会議システムの需要が増加するにつれて、これらのタスクに対処することは、効果的で効率的なオンラインミーティング体験のために必要となる。
従来のほとんどの研究では、これらのタスクをデジタル信号処理(DSP)ベースのコンポーネントと組み合わせて、現実のアプリケーションにデプロイするのに実用的でない複雑なパイプラインが提案されていた。
本稿では,AEC,NS,DRを同時に扱うために,残差畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)に基づいて,DeepVQEと呼ばれるリアルタイムのクロスアテンションディープモデルを提案する。
deepvqe は icassp 2023 acoustic echo cancel challenge と icassp 2023 deep noise suppression challenge テストセットの非パーソナルトラックでの最先端性能を実現し、単一のモデルで優れた性能で複数のタスクを処理できることを示した。
さらに、モデルはリアルタイムで実行され、Microsoft Teamsプラットフォームでテストに成功した。
関連論文リスト
- Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual
Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。
DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。
提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2023-11-09T05:24:20Z) - Complex-Valued Time-Frequency Self-Attention for Speech Dereverberation [39.64103126881576]
本稿では,スペクトルおよび時間依存性をモデル化した複雑なT-Fアテンション(TFA)モジュールを提案する。
本稿では,REVERBチャレンジコーパスを用いた深部複雑畳み込みリカレントネットワーク(DCCRN)を用いた複雑なTFAモジュールの有効性を検証した。
実験結果から,複雑なTFAモジュールをDCCRNに統合することで,バックエンド音声アプリケーション全体の品質と性能が向上することが示唆された。
論文 参考訳(メタデータ) (2022-11-22T23:38:10Z) - Wider or Deeper Neural Network Architecture for Acoustic Scene
Classification with Mismatched Recording Devices [59.86658316440461]
音響シーン分類(ASC)のためのロバストで低複雑性なシステムを提案する。
本稿では,まず,新しい入出力型ネットワークアーキテクチャを設計し,不一致な記録装置問題に対処する,ASCベースラインシステムを構築する。
さらなる性能向上を図りながら、低複雑性モデルを満たすために、多重スペクトルのアンサンブルとチャネル縮小の2つの手法を適用した。
論文 参考訳(メタデータ) (2022-03-23T10:27:41Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - Compute and memory efficient universal sound source separation [23.152611264259225]
汎用オーディオソース分離のための効率的なニューラルネットワークアーキテクチャのファミリーを提供します。
この畳み込みネットワークのバックボーン構造は、SuDoRM-RF(Sccessive DOwnsampling and Resampling of Multi-Resolution Features)である。
実験の結果,SuDoRM-RFモデルは相容れない性能を示し,またいくつかの最先端ベンチマークを上回る性能を示した。
論文 参考訳(メタデータ) (2021-03-03T19:16:53Z) - Sequence-to-sequence Singing Voice Synthesis with Perceptual Entropy
Loss [49.62291237343537]
本稿では,心理音響聴覚モデルから得られた知覚エントロピー(PE)損失をネットワークの正規化のために提案する。
1時間のオープンソース歌唱音声データベースを用いて,PE損失が各種主流系列列列モデルに与える影響について検討する。
論文 参考訳(メタデータ) (2020-10-22T20:14:59Z) - DD-CNN: Depthwise Disout Convolutional Neural Network for Low-complexity
Acoustic Scene Classification [29.343805468175965]
本稿では,都市音響シーンの検出と分類を行うために,Depthwise Disout Convolutional Neural Network (DD-CNN)を提案する。
ネットワークの入力に音響信号の特徴表現としてlog-melを用いる。
提案したDD-CNNでは,ネットワークの複雑さを軽減するために,深度的に分離可能な畳み込みが用いられている。
論文 参考訳(メタデータ) (2020-07-25T06:02:20Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。