論文の概要: Practice of the conformer enhanced AUDIO-VISUAL HUBERT on Mandarin and
English
- arxiv url: http://arxiv.org/abs/2303.12187v1
- Date: Tue, 28 Feb 2023 02:10:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-25 03:17:39.680422
- Title: Practice of the conformer enhanced AUDIO-VISUAL HUBERT on Mandarin and
English
- Title(参考訳): マンダリンと英語におけるAUDIO-VISUAL HUBERTの実践
- Authors: Xiaoming Ren, Chao Li, Shenjian Wang, Biao Li
- Abstract要約: 本稿では, AV-HuBERT システムの性能をさらに向上させるため, AV-HuBERT と命名された混合手法について概説する。
ベースラインのAV-HuBERTと比較して, クリーン条件とノイズ条件の1相評価では, イングランドのAVSRベンチマークデータセット LRS3 に対して, 相対 WER の 7% と 16% の削減が達成されている。
AV-HuBERTのベースライン上に、このデータセットを事前学習することで、MISPおよびCMLR上でWeNet ASRシステムを14%、相対的に18%上回る。
- 参考スコア(独自算出の注目度): 9.170940892758395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Considering the bimodal nature of human speech perception, lips, and teeth
movement has a pivotal role in automatic speech recognition. Benefiting from
the correlated and noise-invariant visual information, audio-visual recognition
systems enhance robustness in multiple scenarios. In previous work,
audio-visual HuBERT appears to be the finest practice incorporating modality
knowledge. This paper outlines a mixed methodology, named conformer enhanced
AV-HuBERT, boosting the AV-HuBERT system's performance a step further. Compared
with baseline AV-HuBERT, our method in the one-phase evaluation of clean and
noisy conditions achieves 7% and 16% relative WER reduction on the English AVSR
benchmark dataset LRS3. Furthermore, we establish a novel 1000h Mandarin AVSR
dataset CSTS. On top of the baseline AV-HuBERT, we exceed the WeNet ASR system
by 14% and 18% relatively on MISP and CMLR by pre-training with this dataset.
The conformer-enhanced AV-HuBERT we proposed brings 7% on MISP and 6% CER
reduction on CMLR, compared with the baseline AV-HuBERT system.
- Abstract(参考訳): ヒトの音声知覚のバイモーダル性を考えると、唇、歯の運動は自動音声認識において重要な役割を担っている。
相関とノイズ不変の視覚情報の恩恵を受け、音声・視覚認識システムは複数のシナリオにおいて頑健性を高める。
以前の研究では、音響視覚のHuBERTは、モダリティの知識を取り入れた最も優れた実践であったようである。
本稿では, AV-HuBERT システムの性能をさらに向上させるため, AV-HuBERT と命名された混合手法について概説する。
ベースラインのAV-HuBERTと比較して, クリーン条件とノイズ条件の1相評価では, イングランドのAVSRベンチマークデータセット LRS3 に対し, 相対 WER の 7% と 16% の削減が達成されている。
さらに,1000h Mandarin AVSRデータセットCSTSを構築した。
AV-HuBERTのベースライン上に、このデータセットを事前学習することで、MISPおよびCMLR上でWeNet ASRシステムを14%、相対的に18%上回る。
提案したコンホメータ強化型AV-HuBERTは,ベースラインのAV-HuBERTシステムと比較して,MISPが7%,CMLRが6%減少する。
関連論文リスト
- Large Language Models Are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法の評価を行い,WERが0.81%,0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - Exploring Pathological Speech Quality Assessment with ASR-Powered Wav2Vec2 in Data-Scarce Context [7.567181073057191]
本稿では,データ不足にもかかわらずセグメントではなく,音声レベルで学習する手法を提案する。
その結果, ASR に基づく Wav2Vec2 モデルが最高の結果をもたらし, ASR と音声品質評価との間に強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2024-03-29T13:59:34Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Exploring the Integration of Speech Separation and Recognition with
Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。
我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。
TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文 参考訳(メタデータ) (2023-07-23T05:39:39Z) - On the Efficacy and Noise-Robustness of Jointly Learned Speech Emotion
and Automatic Speech Recognition [6.006652562747009]
低リソース環境下でのASR-SER共同学習手法について検討する。
共同学習は、ASRワードエラー率(WER)とSER分類の精度をそれぞれ10.7%と2.3%改善することができる。
全体として、共同ASR-SERアプローチは独立したASRとSERアプローチよりも耐雑音性のあるモデルとなった。
論文 参考訳(メタデータ) (2023-05-21T18:52:21Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - A Comparative Study on Speaker-attributed Automatic Speech Recognition
in Multi-party Meetings [53.120885867427305]
会議シナリオにおける話者分散自動音声認識(SA-ASR)の3つのアプローチを評価する。
WD-SOT法は平均話者依存文字誤り率(SD-CER)を10.7%削減する
TS-ASRアプローチはFD-SOTアプローチよりも優れ、16.5%の相対的なSD-CER削減をもたらす。
論文 参考訳(メタデータ) (2022-03-31T06:39:14Z) - Robust Self-Supervised Audio-Visual Speech Recognition [29.526786921769613]
本稿では,Audio-Visual HuBERT(AV-HuBERT)に基づく自己教師型音声視覚音声認識フレームワークを提案する。
利用可能な最大のAVSRベンチマークデータセットであるLSS3では、ラベル付きデータの10%未満を使用して、従来の最先端(28.0%対14.1%)よりも50%優れています。
我々のアプローチは、平均して75%以上(25.8%対5.8%)のオーディオベースモデルのWERを削減する。
論文 参考訳(メタデータ) (2022-01-05T18:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。