論文の概要: SynthVSR: Scaling Up Visual Speech Recognition With Synthetic
Supervision
- arxiv url: http://arxiv.org/abs/2303.17200v2
- Date: Mon, 3 Apr 2023 06:30:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 11:47:45.970981
- Title: SynthVSR: Scaling Up Visual Speech Recognition With Synthetic
Supervision
- Title(参考訳): SynthVSR:Synthetic Supervisionによる視覚音声認識のスケールアップ
- Authors: Xubo Liu, Egor Lakomkin, Konstantinos Vougioukas, Pingchuan Ma,
Honglie Chen, Ruiming Xie, Morrie Doulaty, Niko Moritz, J\'achym Kol\'a\v{r},
Stavros Petridis, Maja Pantic, Christian Fuegen
- Abstract要約: 視覚音声認識(VSR)における合成視覚データの利用の可能性について検討する。
鍵となるアイデアは、入力音声に条件付き唇の動きを生成する音声駆動の唇アニメーションモデルを活用することである。
我々は,最大公的なVSRベンチマークであるLip Reading Sentences 3 (LRS3)に対するアプローチの有効性を評価する。
- 参考スコア(独自算出の注目度): 60.54020550732634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently reported state-of-the-art results in visual speech recognition (VSR)
often rely on increasingly large amounts of video data, while the publicly
available transcribed video datasets are limited in size. In this paper, for
the first time, we study the potential of leveraging synthetic visual data for
VSR. Our method, termed SynthVSR, substantially improves the performance of VSR
systems with synthetic lip movements. The key idea behind SynthVSR is to
leverage a speech-driven lip animation model that generates lip movements
conditioned on the input speech. The speech-driven lip animation model is
trained on an unlabeled audio-visual dataset and could be further optimized
towards a pre-trained VSR model when labeled videos are available. As plenty of
transcribed acoustic data and face images are available, we are able to
generate large-scale synthetic data using the proposed lip animation model for
semi-supervised VSR training. We evaluate the performance of our approach on
the largest public VSR benchmark - Lip Reading Sentences 3 (LRS3). SynthVSR
achieves a WER of 43.3% with only 30 hours of real labeled data, outperforming
off-the-shelf approaches using thousands of hours of video. The WER is further
reduced to 27.9% when using all 438 hours of labeled data from LRS3, which is
on par with the state-of-the-art self-supervised AV-HuBERT method. Furthermore,
when combined with large-scale pseudo-labeled audio-visual data SynthVSR yields
a new state-of-the-art VSR WER of 16.9% using publicly available data only,
surpassing the recent state-of-the-art approaches trained with 29 times more
non-public machine-transcribed video data (90,000 hours). Finally, we perform
extensive ablation studies to understand the effect of each component in our
proposed method.
- Abstract(参考訳): 最近報告された、視覚音声認識(VSR)における最先端の結果は、しばしば大量のビデオデータに依存するが、公開されている転写されたビデオデータセットのサイズは限られている。
本稿では,VSRに合成視覚データを活用する可能性について,初めて考察する。
本手法は,合成唇運動を用いたVSRシステムの性能を大幅に向上させる。
SynthVSRの背後にある重要なアイデアは、入力音声に条件付き唇の動きを生成する音声駆動の唇アニメーションモデルを活用することである。
音声駆動のリップアニメーションモデルはラベルなしの音声ビジュアルデータセットでトレーニングされ、ラベル付きビデオが利用可能であれば、事前訓練されたvsrモデルにさらに最適化することができる。
多くの転写された音響データと顔画像が利用可能であるので、半教師付きVSRトレーニングのためのリップアニメーションモデルを用いて大規模な合成データを生成することができる。
提案手法を,最大公用VSRベンチマークであるLip Reading Sentences 3 (LRS3)で評価した。
SynthVSR の WER は 43.3% に達し、実際のラベル付きデータは 30 時間しかなく、何千時間ものビデオを使った既成のアプローチよりも優れている。
WERは、最先端の自己監督型AV-HuBERT法と同等のRS3から438時間のラベル付きデータを使用すると、さらに27.9%に削減される。
さらに、大規模な擬似ラベル音声視覚データ合成と組み合わせると、公開されているデータのみを使用して、新しい最先端vsr werが16.9%となり、29倍の非公開機械によるビデオデータ(90,000時間)でトレーニングされた最新の最先端のアプローチを上回っている。
最後に,提案手法における各成分の効果を理解するため,広範なアブレーション研究を行った。
関連論文リスト
- SynesLM: A Unified Approach for Audio-visual Speech Recognition and Translation via Language Model and Synthetic Data [42.48380346580101]
我々は3つのマルチモーダル言語理解タスクを実行できる統一モデルであるSynesLMを提案する。
ゼロショットのAV-ASRでは、SynesLMはワードエラー率(WER)を43.4%から39.4%に下げることでSOTAのパフォーマンスを達成した。
VSTとVMTの成績は,VSTの37.2からBLEUスコアを43.5,VMTの54.4から54.8に改善した。
論文 参考訳(メタデータ) (2024-08-01T15:09:32Z) - BRAVEn: Improving Self-Supervised Pre-training for Visual and Auditory Speech Recognition [72.51848069125822]
本稿では,RAVEn法の拡張であるBRAVEnを提案する。
RAVEnの修正により、BRAVEnは自己教師付き手法で最先端の結果を得ることができる。
以上の結果から,手軽に手軽に利用できる音声視覚データが,コストのかかる書き起こしデータに置き換わる可能性が示唆された。
論文 参考訳(メタデータ) (2024-04-02T16:48:20Z) - LiteVSR: Efficient Visual Speech Recognition by Learning from Speech
Representations of Unlabeled Data [9.049193356646635]
提案手法は,訓練されたコンフォーマーベースASRモデルから知識を抽出し,標準VSRベンチマーク上での競合性能を実現する。
我々のモデルは、数日以内に1つのコンシューマグレードのGPUでトレーニングでき、日付のハードウェア上でリアルタイムのエンドツーエンドのVSRを実行することができる。
論文 参考訳(メタデータ) (2023-12-15T12:04:24Z) - Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels [100.43280310123784]
トレーニングセットのサイズを増大させるために,未ラベルデータセットの自動書き起こしの使用について検討した。
近年の文献的傾向であるトレーニングセットのサイズが大きくなると、ノイズのある書き起こしを用いたにもかかわらずWERが減少することが実証された。
提案手法は,RS2 と LRS3 の AV-ASR 上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-25T00:37:34Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Jointly Learning Visual and Auditory Speech Representations from Raw
Data [108.68531445641769]
RAVEnは視覚と聴覚の表現を協調的に学習する自己教師型マルチモーダルアプローチである。
我々の設計は、ビデオとオーディオの固有の違いによって駆動される非対称なw.r.t.である。
RAVEnは視覚音声認識における全自己指導手法を超越している。
論文 参考訳(メタデータ) (2022-12-12T21:04:06Z) - SVTS: Scalable Video-to-Speech Synthesis [105.29009019733803]
本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。
私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
論文 参考訳(メタデータ) (2022-05-04T13:34:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。