論文の概要: Practice of the conformer enhanced AUDIO-VISUAL HUBERT on Mandarin and
English
- arxiv url: http://arxiv.org/abs/2303.12187v1
- Date: Tue, 28 Feb 2023 02:10:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-25 03:17:39.680422
- Title: Practice of the conformer enhanced AUDIO-VISUAL HUBERT on Mandarin and
English
- Title(参考訳): マンダリンと英語におけるAUDIO-VISUAL HUBERTの実践
- Authors: Xiaoming Ren, Chao Li, Shenjian Wang, Biao Li
- Abstract要約: 本稿では, AV-HuBERT システムの性能をさらに向上させるため, AV-HuBERT と命名された混合手法について概説する。
ベースラインのAV-HuBERTと比較して, クリーン条件とノイズ条件の1相評価では, イングランドのAVSRベンチマークデータセット LRS3 に対して, 相対 WER の 7% と 16% の削減が達成されている。
AV-HuBERTのベースライン上に、このデータセットを事前学習することで、MISPおよびCMLR上でWeNet ASRシステムを14%、相対的に18%上回る。
- 参考スコア(独自算出の注目度): 9.170940892758395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Considering the bimodal nature of human speech perception, lips, and teeth
movement has a pivotal role in automatic speech recognition. Benefiting from
the correlated and noise-invariant visual information, audio-visual recognition
systems enhance robustness in multiple scenarios. In previous work,
audio-visual HuBERT appears to be the finest practice incorporating modality
knowledge. This paper outlines a mixed methodology, named conformer enhanced
AV-HuBERT, boosting the AV-HuBERT system's performance a step further. Compared
with baseline AV-HuBERT, our method in the one-phase evaluation of clean and
noisy conditions achieves 7% and 16% relative WER reduction on the English AVSR
benchmark dataset LRS3. Furthermore, we establish a novel 1000h Mandarin AVSR
dataset CSTS. On top of the baseline AV-HuBERT, we exceed the WeNet ASR system
by 14% and 18% relatively on MISP and CMLR by pre-training with this dataset.
The conformer-enhanced AV-HuBERT we proposed brings 7% on MISP and 6% CER
reduction on CMLR, compared with the baseline AV-HuBERT system.
- Abstract(参考訳): ヒトの音声知覚のバイモーダル性を考えると、唇、歯の運動は自動音声認識において重要な役割を担っている。
相関とノイズ不変の視覚情報の恩恵を受け、音声・視覚認識システムは複数のシナリオにおいて頑健性を高める。
以前の研究では、音響視覚のHuBERTは、モダリティの知識を取り入れた最も優れた実践であったようである。
本稿では, AV-HuBERT システムの性能をさらに向上させるため, AV-HuBERT と命名された混合手法について概説する。
ベースラインのAV-HuBERTと比較して, クリーン条件とノイズ条件の1相評価では, イングランドのAVSRベンチマークデータセット LRS3 に対し, 相対 WER の 7% と 16% の削減が達成されている。
さらに,1000h Mandarin AVSRデータセットCSTSを構築した。
AV-HuBERTのベースライン上に、このデータセットを事前学習することで、MISPおよびCMLR上でWeNet ASRシステムを14%、相対的に18%上回る。
提案したコンホメータ強化型AV-HuBERTは,ベースラインのAV-HuBERTシステムと比較して,MISPが7%,CMLRが6%減少する。
関連論文リスト
- MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech
Recognition [68.70787870401159]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - AV-RIR: Audio-Visual Room Impulse Response Estimation [53.07303460914328]
室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。
本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。
論文 参考訳(メタデータ) (2023-11-30T22:58:30Z) - Exploring the Integration of Speech Separation and Recognition with
Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。
我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。
TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文 参考訳(メタデータ) (2023-07-23T05:39:39Z) - On the Efficacy and Noise-Robustness of Jointly Learned Speech Emotion
and Automatic Speech Recognition [6.006652562747009]
低リソース環境下でのASR-SER共同学習手法について検討する。
共同学習は、ASRワードエラー率(WER)とSER分類の精度をそれぞれ10.7%と2.3%改善することができる。
全体として、共同ASR-SERアプローチは独立したASRとSERアプローチよりも耐雑音性のあるモデルとなった。
論文 参考訳(メタデータ) (2023-05-21T18:52:21Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - A Comparative Study on Speaker-attributed Automatic Speech Recognition
in Multi-party Meetings [53.120885867427305]
会議シナリオにおける話者分散自動音声認識(SA-ASR)の3つのアプローチを評価する。
WD-SOT法は平均話者依存文字誤り率(SD-CER)を10.7%削減する
TS-ASRアプローチはFD-SOTアプローチよりも優れ、16.5%の相対的なSD-CER削減をもたらす。
論文 参考訳(メタデータ) (2022-03-31T06:39:14Z) - Robust Self-Supervised Audio-Visual Speech Recognition [29.526786921769613]
本稿では,Audio-Visual HuBERT(AV-HuBERT)に基づく自己教師型音声視覚音声認識フレームワークを提案する。
利用可能な最大のAVSRベンチマークデータセットであるLSS3では、ラベル付きデータの10%未満を使用して、従来の最先端(28.0%対14.1%)よりも50%優れています。
我々のアプローチは、平均して75%以上(25.8%対5.8%)のオーディオベースモデルのWERを削減する。
論文 参考訳(メタデータ) (2022-01-05T18:50:50Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Improved Lite Audio-Visual Speech Enhancement [27.53117725152492]
本稿では,自動車走行シナリオに対するLAVSEアルゴリズムを提案する。
本研究では,AVSEシステムの実装においてしばしば遭遇する3つの実践的問題に対処する能力を向上させるために,LAVSEを拡張した。
台湾・マンダリン語音声におけるiLAVSEをビデオデータセットを用いて評価した。
論文 参考訳(メタデータ) (2020-08-30T17:29:19Z) - How to Teach DNNs to Pay Attention to the Visual Modality in Speech
Recognition [10.74796391075403]
本研究では、AV Alignの内部動作を調査し、オーディオ・視覚アライメントパターンを可視化する。
AV Alignは、一般に単調なパターンで、TD-TIMITのフレームレベルで、音声の音響的および視覚的表現を調整することを学習している。
本稿では,視覚的表現から唇関連行動単位を予測する正規化手法を提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。