論文の概要: Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels
- arxiv url: http://arxiv.org/abs/2303.14307v1
- Date: Sat, 25 Mar 2023 00:37:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 20:47:50.729827
- Title: Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels
- Title(参考訳): Auto-AVSR: 自動ラベルによる音声認識
- Authors: Pingchuan Ma, Alexandros Haliassos, Adriana Fernandez-Lopez, Honglie
Chen, Stavros Petridis, Maja Pantic
- Abstract要約: トレーニングセットのサイズを増大させるために,未ラベルデータセットの自動書き起こしの使用について検討した。
近年の文献的傾向であるトレーニングセットのサイズが大きくなると、ノイズのある書き起こしを用いたにもかかわらずWERが減少することが実証された。
提案手法は,RS2 と LRS3 の AV-ASR 上での最先端性能を実現する。
- 参考スコア(独自算出の注目度): 100.43280310123784
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Audio-visual speech recognition has received a lot of attention due to its
robustness against acoustic noise. Recently, the performance of automatic,
visual, and audio-visual speech recognition (ASR, VSR, and AV-ASR,
respectively) has been substantially improved, mainly due to the use of larger
models and training sets. However, accurate labelling of datasets is
time-consuming and expensive. Hence, in this work, we investigate the use of
automatically-generated transcriptions of unlabelled datasets to increase the
training set size. For this purpose, we use publicly-available pre-trained ASR
models to automatically transcribe unlabelled datasets such as AVSpeech and
VoxCeleb2. Then, we train ASR, VSR and AV-ASR models on the augmented training
set, which consists of the LRS2 and LRS3 datasets as well as the additional
automatically-transcribed data. We demonstrate that increasing the size of the
training set, a recent trend in the literature, leads to reduced WER despite
using noisy transcriptions. The proposed model achieves new state-of-the-art
performance on AV-ASR on LRS2 and LRS3. In particular, it achieves a WER of
0.9% on LRS3, a relative improvement of 30% over the current state-of-the-art
approach, and outperforms methods that have been trained on non-publicly
available datasets with 26 times more training data.
- Abstract(参考訳): 音響雑音に対する頑健性から,音声認識には多くの注目を集めている。
近年,大規模モデルとトレーニングセットの使用を中心に,自動・視覚的・音声視覚的音声認識(ASR,VSR,AV-ASR)の性能が大幅に向上している。
しかし、データセットの正確なラベル付けには時間と費用がかかる。
そこで本研究では,ラベルなしデータセットの自動生成転写を用いて,トレーニングセットのサイズを増加させる方法について検討する。
この目的のために、AVSpeechやVoxCeleb2といった非競合データセットを自動的に書き起こすために、公開トレーニング済みのASRモデルを使用します。
そして、ARS、VSR、AV-ASRのモデルを拡張トレーニングセットでトレーニングし、LSS2とLSS3のデータセットと追加の自動転写データからなる。
近年の文献的傾向であるトレーニングセットのサイズが大きくなると,ノイズによる書き起こしにもかかわらずWERが減少することが示されている。
提案手法は,RS2 と LRS3 の AV-ASR 上での最先端性能を実現する。
特に、現在の最先端アプローチよりも30%向上したRS3で0.9%のWERを達成し、26倍のトレーニングデータを持つ非公開データセットでトレーニングされたメソッドを上回ります。
関連論文リスト
- Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs [73.74375912785689]
本稿では,音声認識システムのための統合学習戦略を提案する。
3つのタスクの1つのモデルをトレーニングすることで、VSRとAVSRの性能が向上することを示す。
また,非ラベル標本をより効果的に活用するために,強欲な擬似ラベリング手法を導入する。
論文 参考訳(メタデータ) (2024-11-04T16:46:53Z) - On the Effect of Purely Synthetic Training Data for Different Automatic Speech Recognition Architectures [19.823015917720284]
音声認識学習における合成データの有用性について検討する。
我々は、元のトレーニングデータを再生し、合成データのみに基づいてASRシステムを訓練する。
トレーニングスコアが過度な適合を示す場合であっても,TTSモデルの一般化は良好であることを示す。
論文 参考訳(メタデータ) (2024-07-25T12:44:45Z) - BRAVEn: Improving Self-Supervised Pre-training for Visual and Auditory Speech Recognition [72.51848069125822]
本稿では,RAVEn法の拡張であるBRAVEnを提案する。
RAVEnの修正により、BRAVEnは自己教師付き手法で最先端の結果を得ることができる。
以上の結果から,手軽に手軽に利用できる音声視覚データが,コストのかかる書き起こしデータに置き換わる可能性が示唆された。
論文 参考訳(メタデータ) (2024-04-02T16:48:20Z) - LiteVSR: Efficient Visual Speech Recognition by Learning from Speech
Representations of Unlabeled Data [9.049193356646635]
提案手法は,訓練されたコンフォーマーベースASRモデルから知識を抽出し,標準VSRベンチマーク上での競合性能を実現する。
我々のモデルは、数日以内に1つのコンシューマグレードのGPUでトレーニングでき、日付のハードウェア上でリアルタイムのエンドツーエンドのVSRを実行することができる。
論文 参考訳(メタデータ) (2023-12-15T12:04:24Z) - Lip2Vec: Efficient and Robust Visual Speech Recognition via
Latent-to-Latent Visual to Audio Representation Mapping [4.271091833712731]
従来のモデルから学習するシンプルなアプローチであるLip2Vecを提案する。
提案手法は LRS3 データセット上で26 WER を達成する完全教師付き学習法と比較した。
我々は、VSRをASRタスクとして再プログラムすることで、両者のパフォーマンスギャップを狭め、より柔軟な唇読解法を構築することができると考えている。
論文 参考訳(メタデータ) (2023-08-11T12:59:02Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Jointly Learning Visual and Auditory Speech Representations from Raw
Data [108.68531445641769]
RAVEnは視覚と聴覚の表現を協調的に学習する自己教師型マルチモーダルアプローチである。
我々の設計は、ビデオとオーディオの固有の違いによって駆動される非対称なw.r.t.である。
RAVEnは視覚音声認識における全自己指導手法を超越している。
論文 参考訳(メタデータ) (2022-12-12T21:04:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。