論文の概要: Deep model with built-in self-attention alignment for acoustic echo
cancellation
- arxiv url: http://arxiv.org/abs/2208.11308v1
- Date: Wed, 24 Aug 2022 05:29:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-25 13:35:26.643881
- Title: Deep model with built-in self-attention alignment for acoustic echo
cancellation
- Title(参考訳): 音響エコーキャンセラのための自己アライメントアライメント内蔵深層モデル
- Authors: Evgenii Indenbom, Nicolae-C\u{a}t\u{a}lin Ristea, Ando Saabas, Tanel
P\"arnamaa, Jegor Gu\v{z}vin
- Abstract要約: 自己注意に基づくアライメントを組み込んだディープラーニングアーキテクチャを提案する。
本手法は, 実記録における遅延推定の困難さに対して, 大幅な改善を実現する。
- 参考スコア(独自算出の注目度): 1.30661828021882
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With recent research advances, deep learning models have become an attractive
choice for acoustic echo cancellation (AEC) in real-time teleconferencing
applications. Since acoustic echo is one of the major sources of poor audio
quality, a wide variety of deep models have been proposed. However, an
important but often omitted requirement for good echo cancellation quality is
the synchronization of the microphone and far end signals. Typically
implemented using classical algorithms based on cross-correlation, the
alignment module is a separate functional block with known design limitations.
In our work we propose a deep learning architecture with built-in
self-attention based alignment, which is able to handle unaligned inputs,
improving echo cancellation performance while simplifying the communication
pipeline. Moreover, we show that our approach achieves significant improvements
for difficult delay estimation cases on real recordings from AEC Challenge data
set.
- Abstract(参考訳): 近年の研究が進み、リアルタイムの遠隔会議アプリケーションにおいて、深層学習モデルは音響エコーキャンセリング(AEC)の魅力的な選択肢となっている。
音響エコーは音質の悪い主要な源の一つであるため、様々な深部モデルが提案されている。
しかし、エコーキャンセリングの品質が良いという重要ながしばしば省略される要件は、マイクロホンと遠端信号の同期である。
通常、クロス相関に基づく古典的アルゴリズムを用いて実装されるアライメントモジュールは、既知の設計制限を持つ独立した機能ブロックである。
本研究では,非整合入力を処理し,エコーキャンセル性能を向上し,通信パイプラインを簡素化し,自己注意に基づくアライメントを組み込んだディープラーニングアーキテクチャを提案する。
さらに,本手法は,aecチャレンジデータセットを用いた実記録における遅延推定の難易度を大幅に改善することを示す。
関連論文リスト
- Tailored Design of Audio-Visual Speech Recognition Models using Branchformers [0.0]
本稿では,パラメータ効率の高い音声認識システムの設計のための新しいフレームワークを提案する。
より正確に言うと、提案するフレームワークは、まず、音声のみのシステムとビデオのみのシステムを推定し、次に、カスタマイズされたオーディオ視覚統合エンコーダを設計する。
その結果、我々のAVSRシステムがどのように最先端の認識率に到達できるかが反映された。
論文 参考訳(メタデータ) (2024-07-09T07:15:56Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Adaptive Speech Quality Aware Complex Neural Network for Acoustic Echo
Cancellation with Supervised Contrastive Learning [3.1644851830271747]
エコーキャンセリングは、マイクロホン信号からエコー、残響、不要な付加音を取り除くように設計されている。
本稿では,適応型音声品質複合ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-10-30T09:42:03Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z) - Data Augmentation based Consistency Contrastive Pre-training for
Automatic Speech Recognition [18.303072203996347]
自動音声認識(ASR)タスクにおいて、自己教師付き音響事前学習は驚くべき結果を得た。
音響事前学習法の多くは、コントラスト学習を用いて音響表現を学習する。
本稿では,音声事前学習のためのデータ拡張を利用して,新しいコントラスト学習法(CCL)を設計する。
論文 参考訳(メタデータ) (2021-12-23T13:23:17Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - Acoustic Structure Inverse Design and Optimization Using Deep Learning [7.566801065167986]
本研究では,ディープラーニングに基づく音響構造設計手法を提案する。
提案手法の有効性を実験的に実証した。
我々の手法はより効率的で、普遍的で、自動化されており、幅広い応用が期待できる。
論文 参考訳(メタデータ) (2021-01-29T10:43:51Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。