論文の概要: Audio-visual Multi-channel Recognition of Overlapped Speech
- arxiv url: http://arxiv.org/abs/2005.08571v2
- Date: Wed, 18 Nov 2020 12:30:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 00:16:46.270391
- Title: Audio-visual Multi-channel Recognition of Overlapped Speech
- Title(参考訳): 重畳音声の多チャンネル音声認識
- Authors: Jianwei Yu, Bo Wu, Rongzhi Gu, Shi-Xiong Zhang, Lianwu Chen, Yong Xu.
Meng Yu, Dan Su, Dong Yu, Xunying Liu, Helen Meng
- Abstract要約: 本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
- 参考スコア(独自算出の注目度): 79.21950701506732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic speech recognition (ASR) of overlapped speech remains a highly
challenging task to date. To this end, multi-channel microphone array data are
widely used in state-of-the-art ASR systems. Motivated by the invariance of
visual modality to acoustic signal corruption, this paper presents an
audio-visual multi-channel overlapped speech recognition system featuring
tightly integrated separation front-end and recognition back-end. A series of
audio-visual multi-channel speech separation front-end components based on
\textit{TF masking}, \textit{filter\&sum} and \textit{mask-based MVDR}
beamforming approaches were developed. To reduce the error cost mismatch
between the separation and recognition components, they were jointly fine-tuned
using the connectionist temporal classification (CTC) loss function, or a
multi-task criterion interpolation with scale-invariant signal to noise ratio
(Si-SNR) error cost. Experiments suggest that the proposed multi-channel AVSR
system outperforms the baseline audio-only ASR system by up to 6.81\% (26.83\%
relative) and 22.22\% (56.87\% relative) absolute word error rate (WER)
reduction on overlapped speech constructed using either simulation or replaying
of the lipreading sentence 2 (LRS2) dataset respectively.
- Abstract(参考訳): 重複した音声の自動音声認識(ASR)は現在でも非常に難しい課題である。
この目的のために、マルチチャネルマイクロホンアレイデータは最先端asrシステムで広く使われている。
本稿では,音響信号の劣化に対する視覚的モダリティの相違を動機として,密に統合された分離フロントエンドと認識バックエンドを備えた多チャンネル重畳音声認識システムを提案する。
マルチチャンネル音声分離のフロントエンドコンポーネントである \textit{tf masking}, \textit{filter\&sum}, \textit{mask-based mvdr} ビームフォーミング手法を開発した。
分離成分と認識成分との誤差コストのミスマッチを低減するため,接続性時間分類(CTC)損失関数や,スケール不変信号とノイズ比(Si-SNR)誤差コストによるマルチタスク基準補間を用いて,共同調整を行った。
提案するマルチチャネルavsrシステムは、リップリード文2(lrs2)データセットのシミュレーションまたは再生を用いて構築された重畳音声における最大6.81\%(26.83\%相対)と22.22\%(56.87\%相対)の絶対単語誤り率(wer)で、ベースラインオーディオのみasrシステムを上回ることを提案している。
関連論文リスト
- MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Mixture Encoder Supporting Continuous Speech Separation for Meeting
Recognition [15.610658840718607]
音声分離によって導入された人工物の効果を緩和する混合エンコーダを提案する。
このアプローチを、任意の数の話者と動的重複を含む、より自然なミーティングコンテキストに拡張する。
実験では、LibriCSSデータセット上での最先端のパフォーマンスを示し、混合エンコーダの利点を強調した。
論文 参考訳(メタデータ) (2023-09-15T14:57:28Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Continuous Speech Separation with Ad Hoc Microphone Arrays [35.87274524040486]
音声分離は複数話者音声認識に有効であることが示された。
本稿では,このアプローチを連続音声分離に拡張する。
単一話者セグメントにおける音声問題を緩和する2つの手法を提案する。
論文 参考訳(メタデータ) (2021-03-03T13:01:08Z) - Continuous Speech Separation with Conformer [60.938212082732775]
分離システムでは、リカレントニューラルネットワークの代わりにトランスとコンバータを用いる。
我々は,自己注意に基づく方法でグローバルな情報を取得することが,音声分離に不可欠であると信じている。
論文 参考訳(メタデータ) (2020-08-13T09:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。