論文の概要: Complex-Valued Time-Frequency Self-Attention for Speech Dereverberation
- arxiv url: http://arxiv.org/abs/2211.12632v1
- Date: Tue, 22 Nov 2022 23:38:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 16:36:13.912141
- Title: Complex-Valued Time-Frequency Self-Attention for Speech Dereverberation
- Title(参考訳): 複素値時間周波数自己アテンションによる音声認識
- Authors: Vinay Kothapally, John H.L. Hansen
- Abstract要約: 本稿では,スペクトルおよび時間依存性をモデル化した複雑なT-Fアテンション(TFA)モジュールを提案する。
本稿では,REVERBチャレンジコーパスを用いた深部複雑畳み込みリカレントネットワーク(DCCRN)を用いた複雑なTFAモジュールの有効性を検証した。
実験結果から,複雑なTFAモジュールをDCCRNに統合することで,バックエンド音声アプリケーション全体の品質と性能が向上することが示唆された。
- 参考スコア(独自算出の注目度): 39.64103126881576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Several speech processing systems have demonstrated considerable performance
improvements when deep complex neural networks (DCNN) are coupled with
self-attention (SA) networks. However, the majority of DCNN-based studies on
speech dereverberation that employ self-attention do not explicitly account for
the inter-dependencies between real and imaginary features when computing
attention. In this study, we propose a complex-valued T-F attention (TFA)
module that models spectral and temporal dependencies by computing
two-dimensional attention maps across time and frequency dimensions. We
validate the effectiveness of our proposed complex-valued TFA module with the
deep complex convolutional recurrent network (DCCRN) using the REVERB challenge
corpus. Experimental findings indicate that integrating our complex-TFA module
with DCCRN improves overall speech quality and performance of back-end speech
applications, such as automatic speech recognition, compared to earlier
approaches for self-attention.
- Abstract(参考訳): いくつかの音声処理システムは、ディープ・コンプレックス・ニューラル・ネットワーク(DCNN)と自己注意(SA)ネットワークが組み合わさると、かなり性能が向上した。
しかし,DCNNを基盤とした自己注意を用いた音声の残響に関する研究の多くは,実際の特徴と想像的特徴の相互依存性を明示的に考慮していない。
本研究では,時間および周波数次元の2次元アテンションマップを計算し,スペクトルおよび時間依存性をモデル化したT-Fアテンションモジュールを提案する。
本稿では,REVERBチャレンジコーパスを用いた深部複雑畳み込みリカレントネットワーク(DCCRN)を用いた複雑なTFAモジュールの有効性を検証する。
実験結果から, 複雑なTFAモジュールをDCCRNに統合することで, 音声認識などのバックエンド音声アプリケーション全体の品質と性能が, 自己注意のアプローチよりも向上することが示唆された。
関連論文リスト
- Delayed Memory Unit: Modelling Temporal Dependency Through Delay Gate [16.4160685571157]
リカレントニューラルネットワーク(RNN)は、時間的依存をモデル化する能力で広く認識されている。
本稿では、ゲートRNNのための新しい遅延メモリユニット(DMU)を提案する。
DMUは遅延線構造と遅延ゲートをバニラRNNに組み込み、時間的相互作用を高め、時間的信用割り当てを容易にする。
論文 参考訳(メタデータ) (2023-10-23T14:29:48Z) - Echotune: A Modular Extractor Leveraging the Variable-Length Nature of Speech in ASR Tasks [4.132793413136553]
可変長アテンション機構を備えたピンブルモジュールであるEcho-MSAを紹介する。
提案した設計は,音声の可変長の特徴を捉え,固定長注意の限界に対処する。
論文 参考訳(メタデータ) (2023-09-14T14:51:51Z) - Multi-Loss Convolutional Network with Time-Frequency Attention for
Speech Enhancement [16.701596804113553]
我々はDPCRNモジュールにおける自己注意を探求し、音声強調のためのMNTFA(Multi-Loss Convolutional Network with Time-Frequency Attention)と呼ばれるモデルの設計を行う。
DPRNNと比較して、軸方向の自己アテンションはメモリと計算の必要性を大幅に減らす。
本稿では,WavLMネットワークを用いた多分解能STFT損失とWavLM損失のジョイントトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-06-15T08:48:19Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - MFA: TDNN with Multi-scale Frequency-channel Attention for
Text-independent Speaker Verification with Short Utterances [94.70787497137854]
本稿では、畳み込みニューラルネットワークとTDNNからなる新しいデュアルパス設計により、話者を異なるスケールで特徴付けるマルチスケール周波数チャネルアテンション(MFA)を提案する。
我々は,提案したMFAをVoxCelebデータベース上で評価し,提案したMFAを用いたフレームワークが,パラメータや複雑性を低減しつつ,最先端のパフォーマンスを実現することを確認した。
論文 参考訳(メタデータ) (2022-02-03T14:57:05Z) - SRU++: Pioneering Fast Recurrence with Attention for Speech Recognition [49.42625022146008]
複数のASRベンチマークでコンフォーマーと比較することにより,SRU++をASRタスクに適用する利点を示す。
具体的には,SRU++ が長文音声入力において Conformer を追い越すことができる。
論文 参考訳(メタデータ) (2021-10-11T19:23:50Z) - MIMO Self-attentive RNN Beamformer for Multi-speaker Speech Separation [45.90599689005832]
近年,ADL-MVDRビームフォーマ法を応用したリカレントニューラルネットワーク(RNN)は,従来のMVDRよりも優れた性能を示した。
我々は、自己注意の強力なモデリング能力を活用し、従来のRNNベースのビームフォーマをさらに改良する自己注意型RNNビームフォーマを提案する。
論文 参考訳(メタデータ) (2021-04-17T05:02:04Z) - Capturing Multi-Resolution Context by Dilated Self-Attention [58.69803243323346]
限定的自己意識と拡張メカニズムの組み合わせを提案し,これを拡張的自己意識と呼ぶ。
制限された自己注意は、高分解能でクエリの隣接するフレームに注意を払い、拡張メカニズムは、より低い解像度でそれに出席できるように遠方の情報を要約します。
ASRの結果は、制限された自己アテンションのみと比較して大幅に改善され、計算コストのごく一部をフルシーケンスベースの自己アテンションと比較すると、同様の結果が得られる。
論文 参考訳(メタデータ) (2021-04-07T02:04:18Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。