論文の概要: Learn an Effective Lip Reading Model without Pains
- arxiv url: http://arxiv.org/abs/2011.07557v1
- Date: Sun, 15 Nov 2020 15:29:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 07:32:47.722010
- Title: Learn an Effective Lip Reading Model without Pains
- Title(参考訳): 痛みのない効果的な唇読解モデルを学ぶ
- Authors: Dalu Feng, Shuang Yang, Shiguang Shan, Xilin Chen
- Abstract要約: 視覚的音声認識としても知られるリップ読み取りは、リップダイナミックスを解析することにより、ビデオから音声の内容を認識することを目的としている。
既存のほとんどの手法は、複雑なニューラルネットワークを構築することで高い性能を得た。
これらの戦略を適切に活用することは、モデルの大部分を変更することなく、常にエキサイティングな改善をもたらす可能性があることに気付きました。
- 参考スコア(独自算出の注目度): 96.21025771586159
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lip reading, also known as visual speech recognition, aims to recognize the
speech content from videos by analyzing the lip dynamics. There have been
several appealing progress in recent years, benefiting much from the rapidly
developed deep learning techniques and the recent large-scale lip-reading
datasets. Most existing methods obtained high performance by constructing a
complex neural network, together with several customized training strategies
which were always given in a very brief description or even shown only in the
source code. We find that making proper use of these strategies could always
bring exciting improvements without changing much of the model. Considering the
non-negligible effects of these strategies and the existing tough status to
train an effective lip reading model, we perform a comprehensive quantitative
study and comparative analysis, for the first time, to show the effects of
several different choices for lip reading. By only introducing some easy-to-get
refinements to the baseline pipeline, we obtain an obvious improvement of the
performance from 83.7% to 88.4% and from 38.2% to 55.7% on two largest public
available lip reading datasets, LRW and LRW-1000, respectively. They are
comparable and even surpass the existing state-of-the-art results.
- Abstract(参考訳): 視覚的音声認識としても知られるリップ読み取りは、リップダイナミックスを分析してビデオから音声の内容を認識することを目的としている。
近年、急速に開発されたディープラーニング技術や、近年の大規模リップリーディングデータセットの恩恵を受け、魅力的な進歩がいくつかある。
既存の手法の多くは、複雑なニューラルネットワークを構築し、いくつかのカスタマイズされたトレーニング戦略と共に、非常に短い説明やソースコードにのみ示されるなど、高いパフォーマンスを達成している。
これらの戦略を適切に利用すれば、モデルを大きく変えることなく、常にエキサイティングな改善が得られます。
本研究は,これらの戦略の非無視効果と,有効な唇読解モデルを訓練するための既存の難易度を考慮し,総合的な定量的研究と比較分析を行い,その効果を初めて明らかにした。
ベースラインパイプラインに手軽に改良を加えるだけで、パフォーマンスが83.7%から88.4%に、38.2%から55.7%に、それぞれlrwとlrw-1000という2つの大きなリップリーディングデータセットで明らかに向上した。
それらは同等であり、既存の最先端の結果を超えている。
関連論文リスト
- Leveraging Visemes for Better Visual Speech Representation and Lip
Reading [2.7836084563851284]
そこで本研究では,音声学的に類似した唇形状群であるビセムを利用して,より差別的で堅牢な唇読解ビデオ特徴を抽出する手法を提案する。
提案手法は,従来手法と比較して,唇読解単語誤り率(WER)を9.1%削減する。
論文 参考訳(メタデータ) (2023-07-19T17:38:26Z) - Training Strategies for Improved Lip-reading [61.661446956793604]
本研究では,最先端データ拡張手法,時間モデル,その他のトレーニング戦略の性能について検討する。
すべての手法を組み合わせると、分類精度は93.4%となり、現在の最先端技術よりも4.6%向上した。
各種学習手法の誤り解析により, 難解な単語の分類精度を高めることにより, 性能が向上することが明らかとなった。
論文 参考訳(メタデータ) (2022-09-03T09:38:11Z) - Sub-word Level Lip Reading With Visual Attention [88.89348882036512]
我々は、リップリーディングで遭遇するユニークな課題に注目し、調整されたソリューションを提案する。
公開データセット上でのトレーニングにおいて,挑戦的なLSS2とLSS3ベンチマークの最先端結果を得る。
我々の最良のモデルはLRS2データセットで22.6%のワードエラー率を達成する。
論文 参考訳(メタデータ) (2021-10-14T17:59:57Z) - LiRA: Learning Visual Speech Representations from Audio through
Self-supervision [53.18768477520411]
セルフスーパービジョン(LiRA)による音声からの視覚的表現の学習を提案する。
具体的には、ResNet+Conformerモデルをトレーニングし、未学習の視覚音声から音響的特徴を予測する。
提案手法は,WildデータセットのLip Readingにおいて,他の自己教師的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-16T23:20:06Z) - Lip-reading with Hierarchical Pyramidal Convolution and Self-Attention [98.52189797347354]
唇読解のための空間特徴抽出にマルチスケール処理を導入する。
セルフアテンションを活用して、シーケンスのすべてのステップで情報をマージします。
提案モデルは86.83%の精度を達成し,現状よりも1.53%の絶対的改善が得られた。
論文 参考訳(メタデータ) (2020-12-28T16:55:51Z) - Mutual Information Maximization for Effective Lip Reading [99.11600901751673]
本稿では,局所的特徴レベルとグローバルなシーケンスレベルの両方について,相互情報制約を導入することを提案する。
これら2つの利点を組み合わせることで, 有効な唇読解法として, 識別性と頑健性の両方が期待できる。
論文 参考訳(メタデータ) (2020-03-13T18:47:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。