論文の概要: Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels
- arxiv url: http://arxiv.org/abs/2303.14307v3
- Date: Wed, 28 Jun 2023 14:41:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 18:03:00.047524
- Title: Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels
- Title(参考訳): Auto-AVSR: 自動ラベルによる音声認識
- Authors: Pingchuan Ma, Alexandros Haliassos, Adriana Fernandez-Lopez, Honglie
Chen, Stavros Petridis, Maja Pantic
- Abstract要約: トレーニングセットのサイズを増大させるために,未ラベルデータセットの自動書き起こしの使用について検討した。
近年の文献的傾向であるトレーニングセットのサイズが大きくなると、ノイズのある書き起こしを用いたにもかかわらずWERが減少することが実証された。
提案手法は,RS2 と LRS3 の AV-ASR 上での最先端性能を実現する。
- 参考スコア(独自算出の注目度): 100.43280310123784
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Audio-visual speech recognition has received a lot of attention due to its
robustness against acoustic noise. Recently, the performance of automatic,
visual, and audio-visual speech recognition (ASR, VSR, and AV-ASR,
respectively) has been substantially improved, mainly due to the use of larger
models and training sets. However, accurate labelling of datasets is
time-consuming and expensive. Hence, in this work, we investigate the use of
automatically-generated transcriptions of unlabelled datasets to increase the
training set size. For this purpose, we use publicly-available pre-trained ASR
models to automatically transcribe unlabelled datasets such as AVSpeech and
VoxCeleb2. Then, we train ASR, VSR and AV-ASR models on the augmented training
set, which consists of the LRS2 and LRS3 datasets as well as the additional
automatically-transcribed data. We demonstrate that increasing the size of the
training set, a recent trend in the literature, leads to reduced WER despite
using noisy transcriptions. The proposed model achieves new state-of-the-art
performance on AV-ASR on LRS2 and LRS3. In particular, it achieves a WER of
0.9% on LRS3, a relative improvement of 30% over the current state-of-the-art
approach, and outperforms methods that have been trained on non-publicly
available datasets with 26 times more training data.
- Abstract(参考訳): 音響雑音に対する頑健性から,音声認識には多くの注目を集めている。
近年,大規模モデルとトレーニングセットの使用を中心に,自動・視覚的・音声視覚的音声認識(ASR,VSR,AV-ASR)の性能が大幅に向上している。
しかし、データセットの正確なラベル付けには時間と費用がかかる。
そこで本研究では,ラベルなしデータセットの自動生成転写を用いて,トレーニングセットのサイズを増加させる方法について検討する。
この目的のために、AVSpeechやVoxCeleb2といった非競合データセットを自動的に書き起こすために、公開トレーニング済みのASRモデルを使用します。
そして、ARS、VSR、AV-ASRのモデルを拡張トレーニングセットでトレーニングし、LSS2とLSS3のデータセットと追加の自動転写データからなる。
近年の文献的傾向であるトレーニングセットのサイズが大きくなると,ノイズによる書き起こしにもかかわらずWERが減少することが示されている。
提案手法は,RS2 と LRS3 の AV-ASR 上での最先端性能を実現する。
特に、現在の最先端アプローチよりも30%向上したRS3で0.9%のWERを達成し、26倍のトレーニングデータを持つ非公開データセットでトレーニングされたメソッドを上回ります。
関連論文リスト
- LiteVSR: Efficient Visual Speech Recognition by Learning from Speech
Representations of Unlabeled Data [9.049193356646635]
提案手法は,訓練されたコンフォーマーベースASRモデルから知識を抽出し,標準VSRベンチマーク上での競合性能を実現する。
我々のモデルは、数日以内に1つのコンシューマグレードのGPUでトレーニングでき、日付のハードウェア上でリアルタイムのエンドツーエンドのVSRを実行することができる。
論文 参考訳(メタデータ) (2023-12-15T12:04:24Z) - Lip2Vec: Efficient and Robust Visual Speech Recognition via
Latent-to-Latent Visual to Audio Representation Mapping [4.271091833712731]
従来のモデルから学習するシンプルなアプローチであるLip2Vecを提案する。
提案手法は LRS3 データセット上で26 WER を達成する完全教師付き学習法と比較した。
我々は、VSRをASRタスクとして再プログラムすることで、両者のパフォーマンスギャップを狭め、より柔軟な唇読解法を構築することができると考えている。
論文 参考訳(メタデータ) (2023-08-11T12:59:02Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Jointly Learning Visual and Auditory Speech Representations from Raw
Data [108.68531445641769]
RAVEnは視覚と聴覚の表現を協調的に学習する自己教師型マルチモーダルアプローチである。
我々の設計は、ビデオとオーディオの固有の違いによって駆動される非対称なw.r.t.である。
RAVEnは視覚音声認識における全自己指導手法を超越している。
論文 参考訳(メタデータ) (2022-12-12T21:04:06Z) - CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command
Recognition [91.33781557979819]
新しいデータセットであるCantonese In-car Audio-Visual Speech Recognition (CI-AVSR)を導入する。
カントン語話者30人が記録した200の車載コマンドの4,984サンプル(8.3時間)で構成されている。
当社のデータセットのクリーンバージョンと拡張バージョンの両方について、詳細な統計情報を提供しています。
論文 参考訳(メタデータ) (2022-01-11T06:32:12Z) - Sub-word Level Lip Reading With Visual Attention [88.89348882036512]
我々は、リップリーディングで遭遇するユニークな課題に注目し、調整されたソリューションを提案する。
公開データセット上でのトレーニングにおいて,挑戦的なLSS2とLSS3ベンチマークの最先端結果を得る。
我々の最良のモデルはLRS2データセットで22.6%のワードエラー率を達成する。
論文 参考訳(メタデータ) (2021-10-14T17:59:57Z) - Noisy Training Improves E2E ASR for the Edge [22.91184103295888]
音声認識(ASR)は現代のエッジデバイスでますます普及している。
E2E ASRモデルは過度に適合する傾向があり、見えないテストデータの一般化には困難である。
本稿では,E2E ASRモデルトレーニングをさらに改善するための,シンプルで効果的な雑音訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-07-09T20:56:20Z) - SynthASR: Unlocking Synthetic Data for Speech Recognition [15.292920497489925]
そこで本研究では,ASRモデルトレーニングのためのデータが少ない,あるいは取得が困難なアプリケーションにおいて,合成音声をASRトレーニング(SynthASR)に活用することを提案する。
薬物名認識のための新しい応用のための社内データセットを用いて実験を行ったところ、合成音声を用いたASR RNN-Tモデルのトレーニングにより、新しいアプリケーションの認識性能が65%以上向上した。
論文 参考訳(メタデータ) (2021-06-14T23:26:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。