論文の概要: Robust Self-Supervised Audio-Visual Speech Recognition
- arxiv url: http://arxiv.org/abs/2201.01763v1
- Date: Wed, 5 Jan 2022 18:50:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-06 14:24:57.052720
- Title: Robust Self-Supervised Audio-Visual Speech Recognition
- Title(参考訳): 頑健な自己監督型音声認識
- Authors: Bowen Shi and Wei-Ning Hsu and Abdelrahman Mohamed
- Abstract要約: 本稿では,Audio-Visual HuBERT(AV-HuBERT)に基づく自己教師型音声視覚音声認識フレームワークを提案する。
利用可能な最大のAVSRベンチマークデータセットであるLSS3では、ラベル付きデータの10%未満を使用して、従来の最先端(28.0%対14.1%)よりも50%優れています。
我々のアプローチは、平均して75%以上(25.8%対5.8%)のオーディオベースモデルのWERを削減する。
- 参考スコア(独自算出の注目度): 29.526786921769613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-based automatic speech recognition (ASR) degrades significantly in
noisy environments and is particularly vulnerable to interfering speech, as the
model cannot determine which speaker to transcribe. Audio-visual speech
recognition (AVSR) systems improve robustness by complementing the audio stream
with the visual information that is invariant to noise and helps the model
focus on the desired speaker. However, previous AVSR work focused solely on the
supervised learning setup; hence the progress was hindered by the amount of
labeled data available. In this work, we present a self-supervised AVSR
framework built upon Audio-Visual HuBERT (AV-HuBERT), a state-of-the-art
audio-visual speech representation learning model. On the largest available
AVSR benchmark dataset LRS3, our approach outperforms prior state-of-the-art by
~50% (28.0% vs. 14.1%) using less than 10% of labeled data (433hr vs. 30hr) in
the presence of babble noise, while reducing the WER of an audio-based model by
over 75% (25.8% vs. 5.8%) on average.
- Abstract(参考訳): 音声に基づく自動音声認識(ASR)は、ノイズの多い環境で著しく劣化し、どの話者を転写するか決定できないため、特に音声の干渉に弱い。
音声-視覚音声認識(AVSR)システムは、ノイズに不変な視覚情報とオーディオストリームを補完することにより堅牢性を向上し、モデルが所望の話者に焦点を合わせるのに役立つ。
しかし、以前のAVSRの研究は教師付き学習装置のみに重点を置いていたため、ラベル付きデータの量によって進行が妨げられた。
本研究では,最先端の音声視覚表現学習モデルであるAudio-Visual HuBERT (AV-HuBERT) に基づく自己教師型AVSRフレームワークを提案する。
利用可能な最大のAVSRベンチマークデータセットであるRS3では、バブルノイズの存在下でラベル付きデータ(433hr vs. 30hr)の10%未満(28.0% vs. 14.1%)を使用し、平均75%(25.8% vs. 5.8%)以上のオーディオベースモデルのWERを削減した。
関連論文リスト
- XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception [62.660135152900615]
音声認識と翻訳システムではノイズの多い入力が不十分である。
XLAVS-Rは、雑音による音声認識と翻訳のための言語間音声・視覚音声表現モデルである。
論文 参考訳(メタデータ) (2024-03-21T13:52:17Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - AV2Wav: Diffusion-Based Re-synthesis from Continuous Self-supervised Features for Audio-Visual Speech Enhancement [18.193191170754744]
AV2Wavは再合成に基づく音声視覚音声強調手法である。
我々は、韻律や話者情報を保持するために、離散表現よりも連続表現を用いる。
提案手法は,自動計測と人間の聴取テストの両方の観点から,マスキングベースのベースラインよりも優れている。
論文 参考訳(メタデータ) (2023-09-14T21:07:53Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels [100.43280310123784]
トレーニングセットのサイズを増大させるために,未ラベルデータセットの自動書き起こしの使用について検討した。
近年の文献的傾向であるトレーニングセットのサイズが大きくなると、ノイズのある書き起こしを用いたにもかかわらずWERが減少することが実証された。
提案手法は,RS2 と LRS3 の AV-ASR 上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-25T00:37:34Z) - Learning Lip-Based Audio-Visual Speaker Embeddings with AV-HuBERT [37.343431783936126]
本稿では,音声-視覚的話者表現学習のための自己教師付き事前学習について検討する。
音声を入力として、話者の口面積を示す視覚ストリームを使用する。
我々は,事前学習の有効性と視覚的モダリティを検証した広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-05-15T04:48:41Z) - Learning Audio-Visual Speech Representation by Masked Multimodal Cluster
Prediction [26.27172574676212]
音声の映像記録には、相関した音声情報と視覚情報が含まれる。
本稿では,音声視覚音声の自己教師型表現学習フレームワークであるAudio-Visual Hidden Unit BERT(AV-HuBERT)を紹介する。
AV-HuBERTは、唇読解と自動音声認識の両方に有効な強力な音声・視覚音声表現を学習する。
論文 参考訳(メタデータ) (2022-01-05T17:40:45Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。