論文の概要: MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech
Recognition
- arxiv url: http://arxiv.org/abs/2401.03424v2
- Date: Wed, 21 Feb 2024 03:42:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 19:27:08.550368
- Title: MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech
Recognition
- Title(参考訳): MLCA-AVSR:多層クロスアテンションフュージョンに基づく音声認識
- Authors: He Wang, Pengcheng Guo, Pan Zhou, Lei Xie
- Abstract要約: 異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
- 参考スコア(独自算出の注目度): 68.70787870401159
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While automatic speech recognition (ASR) systems degrade significantly in
noisy environments, audio-visual speech recognition (AVSR) systems aim to
complement the audio stream with noise-invariant visual cues and improve the
system's robustness. However, current studies mainly focus on fusing the
well-learned modality features, like the output of modality-specific encoders,
without considering the contextual relationship during the modality feature
learning. In this study, we propose a multi-layer cross-attention fusion based
AVSR (MLCA-AVSR) approach that promotes representation learning of each
modality by fusing them at different levels of audio/visual encoders.
Experimental results on the MISP2022-AVSR Challenge dataset show the efficacy
of our proposed system, achieving a concatenated minimum permutation character
error rate (cpCER) of 30.57% on the Eval set and yielding up to 3.17% relative
improvement compared with our previous system which ranked the second place in
the challenge. Following the fusion of multiple systems, our proposed approach
surpasses the first-place system, establishing a new SOTA cpCER of 29.13% on
this dataset.
- Abstract(参考訳): 雑音の多い環境では自動音声認識(ASR)システムが大幅に劣化する一方、音声-視覚音声認識(AVSR)システムはノイズ不変の視覚的手がかりでオーディオストリームを補完し、システムの堅牢性を向上させる。
しかし、現在の研究では、モダリティ特徴学習中の文脈関係を考慮せずに、モダリティ固有のエンコーダの出力のようなよく学習されたモダリティ特徴の融合に重点が置かれている。
本研究では,多層クロスアテンション融合に基づくAVSR(MLCA-AVSR)アプローチを提案する。
MISP2022-AVSR Challengeデータセットによる実験結果から,提案システムの有効性が示され,Eval集合上での最小置換文字誤り率(cpCER)が30.57%,Eval集合において最大3.17%向上した。
複数のシステムの融合に続いて、提案手法は第1位システムを超え、このデータセット上で29.13%の新しいSOTA cpCERを確立する。
関連論文リスト
- Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Exploring the Integration of Speech Separation and Recognition with
Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。
我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。
TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文 参考訳(メタデータ) (2023-07-23T05:39:39Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - The RoyalFlush System of Speech Recognition for M2MeT Challenge [5.863625637354342]
本稿では,M2MeTチャレンジにおけるマルチスピーカ自動音声認識(ASR)の追跡のためのRoyalFlushシステムについて述べる。
大規模シミュレーションデータを用いたシリアライズアウトプットトレーニング(SOT)に基づくマルチスピーカASRシステムを採用した。
我々のシステムでは、検証セットでは12.22%の絶対文字誤り率(CER)が、テストセットでは12.11%が削減された。
論文 参考訳(メタデータ) (2022-02-03T14:38:26Z) - A Two-Stage Approach to Device-Robust Acoustic Scene Classification [63.98724740606457]
デバイスロバスト性を改善するために,完全畳み込みニューラルネットワーク(CNN)に基づく2段階システムを提案する。
以上の結果から,提案したASCシステムにより,開発環境における最先端の精度が得られた。
クラスアクティベーションマッピングを用いたニューラルサリエンシ解析により、モデルによって学習されたパターンに関する新たな洞察が得られる。
論文 参考訳(メタデータ) (2020-11-03T03:27:18Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z) - Discriminative Multi-modality Speech Recognition [17.296404414250553]
視覚は、しばしば音声音声認識(ASR)の相補的モダリティとして使用される。
本稿では,2段階音声認識モデルを提案する。
第1段階では、対象の音声を、対応する唇の動きの視覚情報から助けを借りて背景雑音から分離し、モデル「リスト」を明確にする。
第2段階では、音声モダリティは視覚的モダリティを再び組み合わせて、MSRサブネットワークによる音声の理解を深め、認識率をさらに向上させる。
論文 参考訳(メタデータ) (2020-05-12T07:56:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。