論文の概要: Acoustic Echo Cancellation using Residual U-Nets
- arxiv url: http://arxiv.org/abs/2109.09686v1
- Date: Mon, 20 Sep 2021 16:57:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-21 19:46:48.698550
- Title: Acoustic Echo Cancellation using Residual U-Nets
- Title(参考訳): 残留U-Netを用いた音響エコーキャンセラ
- Authors: J. Silva-Rodr\'iguez and M.F. Dolz and M. Ferrer and A. Castell\'o and
V. Naranjo and G. Pi\~nero
- Abstract要約: 本稿では,U-Net畳み込みニューラルネットワークを用いた音響エコーキャンセラについて述べる。
我々は、合成データセットのみ(S-U-Net)と合成データセットと実データセットの単語セット(SR-U-Net)で最適化されたU-Netモデルを訓練した。
S-U-Netモデルでは、ダブルトークのシナリオに対してより良い結果が得られたため、ブラインドテストセットから推定されたニアエンド信号がチャレンジに提出された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents an acoustic echo canceler based on a U-Net convolutional
neural network for single-talk and double-talk scenarios. U-Net networks have
previously been used in the audio processing area for source separation
problems because of their ability to reproduce the finest details of audio
signals, but to our knowledge, this is the first time they have been used for
acoustic echo cancellation (AEC). The U-Net hyperparameters have been optimized
to obtain the best AEC performance, but using a reduced number of parameters to
meet a latency restriction of 40 ms. The training and testing of our model have
been carried out within the framework of the 'ICASSP 2021 AEC Challenge'
organized by Microsoft. We have trained the optimized U-Net model with a
synthetic dataset only (S-U-Net) and with a synthetic dataset and the
single-talk set of a real dataset (SR-U-Net), both datasets were released for
the challenge. The S-U-Net model presented better results for double-talk
scenarios, thus their inferred near-end signals from the blind testset were
submitted to the challenge. Our canceler ranked 12th among 17 teams, and 5th
among 10 academia teams, obtaining an overall mean opinion score of 3.57.
- Abstract(参考訳): 本稿では,u-net畳み込みニューラルネットワークを用いた単発・二重発シナリオのための音響エコーキャンセラを提案する。
U-Netネットワークは、オーディオ信号の細部を再現できるため、ソース分離問題のために、これまでオーディオ処理領域で使われてきたが、我々の知る限り、音響エコーキャンセリング(AEC)に使用されるのは今回が初めてである。
U-Netハイパーパラメータは、最高のAEC性能を得るために最適化されているが、40msの遅延制限を満たすためにパラメータを減らし、Microsoftが主催する 'ICASSP 2021 AEC Challenge' のフレームワーク内でモデルのトレーニングとテストが行われた。
我々は、最適化されたu-netモデルを合成データセット(s-u-net)と合成データセット(sr-u-net)でトレーニングし、両方のデータセットをチャレンジ用にリリースした。
s-u-netモデルは、ダブルトークシナリオのより良い結果を示し、ブラインドテストセットから推定された近距離信号が課題に提出された。
キャンセルチームは17チーム中12位、学歴10チーム中5位にランクインし、全体の平均スコアは3.57だった。
関連論文リスト
- Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - DeepVQE: Real Time Deep Voice Quality Enhancement for Joint Acoustic
Echo Cancellation, Noise Suppression and Dereverberation [12.734839065028547]
本稿では、残差畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)に基づく、DeepVQEと呼ばれるリアルタイムのクロスアテンションディープモデルを提案する。
モデルの各コンポーネントのコントリビューションを分析して、全体的なパフォーマンスを実現する。
ICASSP 2023 Acoustic Echo Challenge とICASSP 2023 Deep Noise Suppression Challenge テストセットの非個人化トラックにおけるDeepVQEの最先端性能は、単一のモデルが優れたパフォーマンスで複数のタスクを処理可能であることを示している。
論文 参考訳(メタデータ) (2023-06-05T18:37:05Z) - LEAN: Light and Efficient Audio Classification Network [1.5070398746522742]
音声分類のための軽量デバイス深層学習モデルLEANを提案する。
LEANは、ウェーブニアライメント(Wave realignment)と呼ばれる生波形ベースの時間的特徴抽出器と、ログメルベースの事前学習YAMNetから構成される。
トレーニング可能なウェーブエンコーダと事前学習されたYAMNetとクロスアテンションに基づく時間的アライメントを組み合わせることで、より少ないメモリフットプリントを持つ下流オーディオ分類タスクにおける競合性能が得られることを示す。
論文 参考訳(メタデータ) (2023-05-22T04:45:04Z) - X-SepFormer: End-to-end Speaker Extraction Network with Explicit
Optimization on Speaker Confusion [5.4878772986187565]
本稿では、損失スキームとSepFormerのバックボーンを備えたエンドツーエンドのTSEモデルを提案する。
19.4dBのSI-SDRiと3.81のPSSQでは、私たちの最良のシステムは現在のSOTAシステムよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-03-09T04:00:29Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - SVSNet: An End-to-end Speaker Voice Similarity Assessment Model [61.3813595968834]
本研究では、自然言語と合成音声の話者音声類似性を評価するために、最初のエンドツーエンドニューラルネットワークモデルであるSVSNetを提案する。
Voice Conversion Challenge 2018と2020の実験結果は、SVSNetがよく知られたベースラインシステムより優れていることを示している。
論文 参考訳(メタデータ) (2021-07-20T10:19:46Z) - Raw Waveform Encoder with Multi-Scale Globally Attentive Locally
Recurrent Networks for End-to-End Speech Recognition [45.858039215825656]
本稿では,グローバルな注意的局所再帰(GALR)ネットワークを採用し,生波形を直接入力とする新しいエンコーダを提案する。
ベンチマークデータセットAISHELL-2と,5,000時間21,000時間の大規模マンダリン音声コーパスを用いて実験を行った。
論文 参考訳(メタデータ) (2021-06-08T12:12:33Z) - Sequence-to-sequence Singing Voice Synthesis with Perceptual Entropy
Loss [49.62291237343537]
本稿では,心理音響聴覚モデルから得られた知覚エントロピー(PE)損失をネットワークの正規化のために提案する。
1時間のオープンソース歌唱音声データベースを用いて,PE損失が各種主流系列列列モデルに与える影響について検討する。
論文 参考訳(メタデータ) (2020-10-22T20:14:59Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。