論文の概要: Sub-word Level Lip Reading With Visual Attention
- arxiv url: http://arxiv.org/abs/2110.07603v1
- Date: Thu, 14 Oct 2021 17:59:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-15 12:55:49.043919
- Title: Sub-word Level Lip Reading With Visual Attention
- Title(参考訳): 視覚注意を伴うサブワードレベルの口唇読解
- Authors: Prajwal K R, Triantafyllos Afouras, Andrew Zisserman
- Abstract要約: 我々は、リップリーディングで遭遇するユニークな課題に注目し、調整されたソリューションを提案する。
公開データセット上でのトレーニングにおいて,挑戦的なLSS2とLSS3ベンチマークの最先端結果を得る。
我々の最良のモデルはLRS2データセットで22.6%のワードエラー率を達成する。
- 参考スコア(独自算出の注目度): 88.89348882036512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of this paper is to learn strong lip reading models that can
recognise speech in silent videos. Most prior works deal with the open-set
visual speech recognition problem by adapting existing automatic speech
recognition techniques on top of trivially pooled visual features. Instead, in
this paper we focus on the unique challenges encountered in lip reading and
propose tailored solutions. To that end we make the following contributions:
(1) we propose an attention-based pooling mechanism to aggregate visual speech
representations; (2) we use sub-word units for lip reading for the first time
and show that this allows us to better model the ambiguities of the task; (3)
we propose a training pipeline that balances the lip reading performance with
other key factors such as data and compute efficiency. Following the above, we
obtain state-of-the-art results on the challenging LRS2 and LRS3 benchmarks
when training on public datasets, and even surpass models trained on
large-scale industrial datasets by using an order of magnitude less data. Our
best model achieves 22.6% word error rate on the LRS2 dataset, a performance
unprecedented for lip reading models, significantly reducing the performance
gap between lip reading and automatic speech recognition.
- Abstract(参考訳): 本研究の目的は,サイレントビデオ中の音声を認識できる強力な口唇読解モデルを学ぶことである。
従来の作業の多くは、自明にプールされた視覚的特徴の上に既存の自動音声認識技術を適用することで、オープンセットの音声認識問題に対処する。
そこで本研究では,唇読解に遭遇する独特の課題に注目し,その解決法を提案する。
そこで,(1)視覚表現を集約する注意に基づくプーリング機構を提案し,(2)唇読解にサブワード単位を用いることにより,作業のあいまいさをより良くモデル化できることを示し,(3)リップ読解性能とデータや計算効率などの他の重要な要素をバランスさせるトレーニングパイプラインを提案する。
以上の結果に続いて,公開データセットのトレーニングにおいて挑戦的なlrs2およびlrs3ベンチマークの最先端結果を得るとともに,大規模産業データセットでトレーニングされたモデルを,桁違いに少ないデータを用いて超えている。
LRS2データセットで22.6%の単語誤り率を達成し、唇読解モデルでは前例のない性能を達成し、唇読取と自動音声認識のパフォーマンスギャップを著しく減らした。
関連論文リスト
- Lip2Vec: Efficient and Robust Visual Speech Recognition via
Latent-to-Latent Visual to Audio Representation Mapping [4.271091833712731]
従来のモデルから学習するシンプルなアプローチであるLip2Vecを提案する。
提案手法は LRS3 データセット上で26 WER を達成する完全教師付き学習法と比較した。
我々は、VSRをASRタスクとして再プログラムすることで、両者のパフォーマンスギャップを狭め、より柔軟な唇読解法を構築することができると考えている。
論文 参考訳(メタデータ) (2023-08-11T12:59:02Z) - Leveraging Visemes for Better Visual Speech Representation and Lip
Reading [2.7836084563851284]
そこで本研究では,音声学的に類似した唇形状群であるビセムを利用して,より差別的で堅牢な唇読解ビデオ特徴を抽出する手法を提案する。
提案手法は,従来手法と比較して,唇読解単語誤り率(WER)を9.1%削減する。
論文 参考訳(メタデータ) (2023-07-19T17:38:26Z) - Seeing What You Said: Talking Face Generation Guided by a Lip Reading
Expert [89.07178484337865]
音声合成は、コヒーレントな音声入力が与えられた唇に関する顔の動きを再構成する。
従来の研究では、唇音の同期と視覚的品質が重要であった。
そこで我々は, 唇読解の専門家を用いて, 生成した唇領域の知性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-29T07:51:07Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Jointly Learning Visual and Auditory Speech Representations from Raw
Data [108.68531445641769]
RAVEnは視覚と聴覚の表現を協調的に学習する自己教師型マルチモーダルアプローチである。
我々の設計は、ビデオとオーディオの固有の違いによって駆動される非対称なw.r.t.である。
RAVEnは視覚音声認識における全自己指導手法を超越している。
論文 参考訳(メタデータ) (2022-12-12T21:04:06Z) - Spatio-Temporal Attention Mechanism and Knowledge Distillation for Lip
Reading [0.06157382820537718]
3つのコントリビューションを組み合わせた新しい唇読解モデルを提案する。
LRWリップリーディングデータセットベンチマークでは,顕著な精度向上が示された。
論文 参考訳(メタデータ) (2021-08-07T23:46:25Z) - LiRA: Learning Visual Speech Representations from Audio through
Self-supervision [53.18768477520411]
セルフスーパービジョン(LiRA)による音声からの視覚的表現の学習を提案する。
具体的には、ResNet+Conformerモデルをトレーニングし、未学習の視覚音声から音響的特徴を予測する。
提案手法は,WildデータセットのLip Readingにおいて,他の自己教師的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-16T23:20:06Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。