論文の概要: Audio-visual multi-channel speech separation, dereverberation and
recognition
- arxiv url: http://arxiv.org/abs/2204.01977v1
- Date: Tue, 5 Apr 2022 04:16:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 15:02:50.690977
- Title: Audio-visual multi-channel speech separation, dereverberation and
recognition
- Title(参考訳): 音声・視覚多チャンネル音声分離, 残響, 認識
- Authors: Guinan Li, Jianwei Yu, Jiajun Deng, Xunying Liu, Helen Meng
- Abstract要約: 本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
- 参考スコア(独自算出の注目度): 70.34433820322323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the rapid advance of automatic speech recognition (ASR) technologies,
accurate recognition of cocktail party speech characterised by the interference
from overlapping speakers, background noise and room reverberation remains a
highly challenging task to date. Motivated by the invariance of visual modality
to acoustic signal corruption, audio-visual speech enhancement techniques have
been developed, although predominantly targeting overlapping speech separation
and recognition tasks. In this paper, an audio-visual multi-channel speech
separation, dereverberation and recognition approach featuring a full
incorporation of visual information into all three stages of the system is
proposed. The advantage of the additional visual modality over using audio only
is demonstrated on two neural dereverberation approaches based on DNN-WPE and
spectral mapping respectively. The learning cost function mismatch between the
separation and dereverberation models and their integration with the back-end
recognition system is minimised using fine-tuning on the MSE and LF-MMI
criteria. Experiments conducted on the LRS2 dataset suggest that the proposed
audio-visual multi-channel speech separation, dereverberation and recognition
system outperforms the baseline audio-visual multi-channel speech separation
and recognition system containing no dereverberation module by a statistically
significant word error rate (WER) reduction of 2.06% absolute (8.77% relative).
- Abstract(参考訳): 音声認識(ASR)技術の急速な進歩にもかかわらず、重なり合う話者からの干渉によって特徴付けられるカクテルパーティー音声の正確な認識、背景雑音、室内残響は現在でも非常に困難な課題である。
音声信号の劣化に対する視覚的モダリティの相違により、音声-視覚的音声強調技術が開発されているが、主に重なり合う音声分離と認識タスクを対象としている。
本稿では,システムの全3段階に視覚情報の完全な組み入れを特徴とする音声・視覚多チャンネル音声分離,残響・認識手法を提案する。
DNN-WPEとスペクトルマッピングに基づく2つのニューラルデバーベレーション手法において,音声のみを用いた場合の視覚的モダリティの利点が示された。
MSE基準とLF-MMI基準を微調整することにより,分離と収差モデル間の学習コスト関数のミスマッチとバックエンド認識システムとの統合を最小化する。
LRS2データセットを用いて行った実験により、提案手法は、統計的に有意な単語誤り率 (WER) の2.06%の絶対値(8.77%)で、ベースラインの音声-視覚多チャンネル音声分離認識システムよりも優れていたことが示唆された。
関連論文リスト
- MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Exploring the Integration of Speech Separation and Recognition with
Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。
我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。
TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文 参考訳(メタデータ) (2023-07-23T05:39:39Z) - Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z) - Discriminative Multi-modality Speech Recognition [17.296404414250553]
視覚は、しばしば音声音声認識(ASR)の相補的モダリティとして使用される。
本稿では,2段階音声認識モデルを提案する。
第1段階では、対象の音声を、対応する唇の動きの視覚情報から助けを借りて背景雑音から分離し、モデル「リスト」を明確にする。
第2段階では、音声モダリティは視覚的モダリティを再び組み合わせて、MSRサブネットワークによる音声の理解を深め、認識率をさらに向上させる。
論文 参考訳(メタデータ) (2020-05-12T07:56:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。