論文の概要: MIMO Self-attentive RNN Beamformer for Multi-speaker Speech Separation
- arxiv url: http://arxiv.org/abs/2104.08450v1
- Date: Sat, 17 Apr 2021 05:02:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-24 05:13:55.427534
- Title: MIMO Self-attentive RNN Beamformer for Multi-speaker Speech Separation
- Title(参考訳): マルチスピーカ音声分離のためのMIMO自励式RNNビームフォーマ
- Authors: Xiyun Li and Yong Xu and Meng Yu and Shi-Xiong Zhang and Jiaming Xu
and Bo Xu and Dong Yu
- Abstract要約: 近年,ADL-MVDRビームフォーマ法を応用したリカレントニューラルネットワーク(RNN)は,従来のMVDRよりも優れた性能を示した。
我々は、自己注意の強力なモデリング能力を活用し、従来のRNNベースのビームフォーマをさらに改良する自己注意型RNNビームフォーマを提案する。
- 参考スコア(独自算出の注目度): 45.90599689005832
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, our proposed recurrent neural network (RNN) based all deep learning
minimum variance distortionless response (ADL-MVDR) beamformer method yielded
superior performance over the conventional MVDR by replacing the matrix
inversion and eigenvalue decomposition with two RNNs.In this work, we present a
self-attentive RNN beamformer to further improve our previous RNN-based
beamformer by leveraging on the powerful modeling capability of self-attention.
Temporal-spatial self-attention module is proposed to better learn the
beamforming weights from the speech and noise spatial covariance matrices. The
temporal self-attention module could help RNN to learn global statistics of
covariance matrices. The spatial self-attention module is designed to attend on
the cross-channel correlation in the covariance matrices. Furthermore, a
multi-channel input with multi-speaker directional features and multi-speaker
speech separation outputs (MIMO) model is developed to improve the inference
efficiency.The evaluations demonstrate that our proposed MIMO self-attentive
RNN beamformer improves both the automatic speech recognition (ASR) accuracy
and the perceptual estimation of speech quality (PESQ) against prior arts.
- Abstract(参考訳): 提案手法は, 行列逆転と固有値分解を2つのRNNに置き換えることにより, 従来のMVDRよりも優れた性能を示した。本研究では, 自己注意の強力なモデリング能力を活用し, 従来のRNNベースのビームフォーマをさらに改良する自己注意型RNNビームフォーマを提案する。
音声と雑音空間共分散行列からビームフォーミング重みを学習するために,時間空間自己アテンションモジュールを提案する。
時間的自己アテンションモジュールは、RNNが共分散行列のグローバル統計学を学ぶのに役立つ。
空間自己アテンションモジュールは、共分散行列のチャネル間相関に参加するように設計されている。
さらに,マルチスピーカ指向性特徴を持つマルチチャネル入力とマルチスピーカ音声分離出力(MIMO)モデルを開発し,提案したMIMO自己注意RNNビームフォーマが,先行技術に対する音声認識(ASR)精度と知覚品質(PESQ)推定の両方を改善することを示す。
関連論文リスト
- Multi-Loss Convolutional Network with Time-Frequency Attention for
Speech Enhancement [16.701596804113553]
我々はDPCRNモジュールにおける自己注意を探求し、音声強調のためのMNTFA(Multi-Loss Convolutional Network with Time-Frequency Attention)と呼ばれるモデルの設計を行う。
DPRNNと比較して、軸方向の自己アテンションはメモリと計算の必要性を大幅に減らす。
本稿では,WavLMネットワークを用いた多分解能STFT損失とWavLM損失のジョイントトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-06-15T08:48:19Z) - Complex-Valued Time-Frequency Self-Attention for Speech Dereverberation [39.64103126881576]
本稿では,スペクトルおよび時間依存性をモデル化した複雑なT-Fアテンション(TFA)モジュールを提案する。
本稿では,REVERBチャレンジコーパスを用いた深部複雑畳み込みリカレントネットワーク(DCCRN)を用いた複雑なTFAモジュールの有効性を検証した。
実験結果から,複雑なTFAモジュールをDCCRNに統合することで,バックエンド音声アプリケーション全体の品質と性能が向上することが示唆された。
論文 参考訳(メタデータ) (2022-11-22T23:38:10Z) - VQ-T: RNN Transducers using Vector-Quantized Prediction Network States [52.48566999668521]
本稿では,RNNトランスデューサの予測ネットワークにおけるベクトル量子化長短期記憶単位を提案する。
ASRネットワークと協調して離散表現を訓練することにより、格子生成のために仮説を積極的にマージすることができる。
提案するVQ RNNトランスデューサは,通常の予測ネットワークを持つトランスデューサよりもASR性能が向上することを示す。
論文 参考訳(メタデータ) (2022-08-03T02:45:52Z) - MFA: TDNN with Multi-scale Frequency-channel Attention for
Text-independent Speaker Verification with Short Utterances [94.70787497137854]
本稿では、畳み込みニューラルネットワークとTDNNからなる新しいデュアルパス設計により、話者を異なるスケールで特徴付けるマルチスケール周波数チャネルアテンション(MFA)を提案する。
我々は,提案したMFAをVoxCelebデータベース上で評価し,提案したMFAを用いたフレームワークが,パラメータや複雑性を低減しつつ,最先端のパフォーマンスを実現することを確認した。
論文 参考訳(メタデータ) (2022-02-03T14:57:05Z) - Multi-turn RNN-T for streaming recognition of multi-party speech [2.899379040028688]
この研究は、モデル設計における第一優先事項としてリアルタイム適用性を求め、マルチスピーカリカレントニューラルネットワークトランスデューサ(MS-RNN-T)に関する以前の研究におけるいくつかの課題に対処する。
トレーニング中に重なり合う音声シミュレーションを導入し、LibriSpeechMixテストセットの相対単語誤り率(WER)を14%改善した。
本稿では,モデルアーキテクチャの変更を伴わずに任意の話者数に一般化する重畳型ターゲットアレンジメント戦略を備えた,新しいマルチターンRNN-T(MT-RNN-T)モデルを提案する。
論文 参考訳(メタデータ) (2021-12-19T17:22:58Z) - SRU++: Pioneering Fast Recurrence with Attention for Speech Recognition [49.42625022146008]
複数のASRベンチマークでコンフォーマーと比較することにより,SRU++をASRタスクに適用する利点を示す。
具体的には,SRU++ が長文音声入力において Conformer を追い越すことができる。
論文 参考訳(メタデータ) (2021-10-11T19:23:50Z) - Self-Attention for Audio Super-Resolution [0.0]
畳み込みと自己認識を組み合わせた超高解像度オーディオのためのネットワークアーキテクチャを提案する。
Attention-based Feature-Wise Linear Modulation (AFiLM) は、畳み込みモデルの活性化を変調するために、リカレントニューラルネットワークの代わりに自己アテンションメカニズムを使用する。
論文 参考訳(メタデータ) (2021-08-26T08:05:07Z) - Streaming Multi-speaker ASR with RNN-T [8.701566919381223]
本研究は、リカレントニューラルネットワークトランスデューサ(RNN-T)に基づくマルチスピーカ音声認識に焦点を当てている。
RNN-Tの高レベル話者追跡能力を高めるために,前者における話者順ラベルの分離が重要であることを示す。
我々の最良モデルは、前述した最先端非ストリーミングモデル(10.3%)と競合する2話者Libriデータ上で10.2%のWERを達成する。
論文 参考訳(メタデータ) (2020-11-23T19:10:40Z) - Distributional Reinforcement Learning for mmWave Communications with
Intelligent Reflectors on a UAV [119.97450366894718]
無人航空機(UAV)搭載のインテリジェントリフレクタ(IR)を用いた新しい通信フレームワークを提案する。
ダウンリンク和率を最大化するために、最適プリコーディング行列(基地局)と反射係数(IR)を共同で導出する。
論文 参考訳(メタデータ) (2020-11-03T16:50:37Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。