論文の概要: Can We Read Speech Beyond the Lips? Rethinking RoI Selection for Deep
Visual Speech Recognition
- arxiv url: http://arxiv.org/abs/2003.03206v2
- Date: Mon, 9 Mar 2020 06:06:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 01:28:46.192812
- Title: Can We Read Speech Beyond the Lips? Rethinking RoI Selection for Deep
Visual Speech Recognition
- Title(参考訳): 唇の向こうのスピーチは読めますか?
深部視覚音声認識のためのroi選択の再考
- Authors: Yuanhang Zhang, Shuang Yang, Jingyun Xiao, Shiguang Shan, Xilin Chen
- Abstract要約: 我々は、最先端の音声認識モデルを用いて、異なる顔領域の効果を評価する。
口腔外顔面領域からの情報、上面でさえも、常にVSRの性能に寄与することが判明した。
- 参考スコア(独自算出の注目度): 90.61063126619182
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in deep learning have heightened interest among researchers
in the field of visual speech recognition (VSR). Currently, most existing
methods equate VSR with automatic lip reading, which attempts to recognise
speech by analysing lip motion. However, human experience and psychological
studies suggest that we do not always fix our gaze at each other's lips during
a face-to-face conversation, but rather scan the whole face repetitively. This
inspires us to revisit a fundamental yet somehow overlooked problem: can VSR
models benefit from reading extraoral facial regions, i.e. beyond the lips? In
this paper, we perform a comprehensive study to evaluate the effects of
different facial regions with state-of-the-art VSR models, including the mouth,
the whole face, the upper face, and even the cheeks. Experiments are conducted
on both word-level and sentence-level benchmarks with different
characteristics. We find that despite the complex variations of the data,
incorporating information from extraoral facial regions, even the upper face,
consistently benefits VSR performance. Furthermore, we introduce a simple yet
effective method based on Cutout to learn more discriminative features for
face-based VSR, hoping to maximise the utility of information encoded in
different facial regions. Our experiments show obvious improvements over
existing state-of-the-art methods that use only the lip region as inputs, a
result we believe would probably provide the VSR community with some new and
exciting insights.
- Abstract(参考訳): 近年の深層学習の進歩は、視覚音声認識(VSR)分野の研究者の間で関心が高まっている。
現在、既存のほとんどの手法は、唇の動きを分析して音声認識しようとする自動唇読解とVSRを等価にしている。
しかし、人間の経験や心理学的な研究は、対面会話中に常にお互いの唇を見つめているのではなく、顔全体を反復的にスキャンしていることを示唆している。
これは、VSRモデルが口外顔面領域、すなわち唇を越えて読むことの恩恵を享受できるかどうかという根本的な問題を再考するきっかけとなる。
本稿では, 口, 顔全体, 上顔, 頬部を含む最先端のVSRモデルを用いて, 異なる顔面領域の効果を総合的に評価する。
異なる特徴を持つ単語レベルと文レベルのベンチマークで実験を行う。
複雑なデータの変化にもかかわらず、口腔外顔領域の情報や上面でさえも、常にVSRの性能に寄与することがわかった。
さらに、顔をベースとしたVSRのより識別的な特徴を学習し、異なる顔領域に符号化された情報の有用性を最大化するために、カットアウトに基づく簡易かつ効果的な方法を提案する。
我々の実験は、リップ領域のみを入力として使用する既存の最先端手法よりも明らかに改善されていることを示し、VSRコミュニティに新しいエキサイティングな洞察を与えるだろうと考えている。
関連論文リスト
- Learning Separable Hidden Unit Contributions for Speaker-Adaptive Lip-Reading [73.59525356467574]
話者自身の特徴は、ほとんど顔画像や浅いネットワークを持つ単一の画像によって常にうまく表現できる。
話し手によって表現される音声コンテンツに付随するきめ細かい動的特徴には、常に深いシーケンシャルネットワークが必要である。
私たちのアプローチは、既存の方法よりも一貫して優れています。
論文 参考訳(メタデータ) (2023-10-08T07:48:25Z) - Leveraging Visemes for Better Visual Speech Representation and Lip
Reading [2.7836084563851284]
そこで本研究では,音声学的に類似した唇形状群であるビセムを利用して,より差別的で堅牢な唇読解ビデオ特徴を抽出する手法を提案する。
提案手法は,従来手法と比較して,唇読解単語誤り率(WER)を9.1%削減する。
論文 参考訳(メタデータ) (2023-07-19T17:38:26Z) - SynthVSR: Scaling Up Visual Speech Recognition With Synthetic
Supervision [60.54020550732634]
視覚音声認識(VSR)における合成視覚データの利用の可能性について検討する。
鍵となるアイデアは、入力音声に条件付き唇の動きを生成する音声駆動の唇アニメーションモデルを活用することである。
我々は,最大公的なVSRベンチマークであるLip Reading Sentences 3 (LRS3)に対するアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2023-03-30T07:43:27Z) - Seeing What You Said: Talking Face Generation Guided by a Lip Reading
Expert [89.07178484337865]
音声合成は、コヒーレントな音声入力が与えられた唇に関する顔の動きを再構成する。
従来の研究では、唇音の同期と視覚的品質が重要であった。
そこで我々は, 唇読解の専門家を用いて, 生成した唇領域の知性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-29T07:51:07Z) - CIAO! A Contrastive Adaptation Mechanism for Non-Universal Facial
Expression Recognition [80.07590100872548]
本稿では、顔エンコーダの最後の層に異なるデータセットの特定の感情特性を適応させるメカニズムであるContrastive Inhibitory Adaptati On(CIAO)を提案する。
CIAOは、非常にユニークな感情表現を持つ6つの異なるデータセットに対して、表情認識性能が改善されている。
論文 参考訳(メタデータ) (2022-08-10T15:46:05Z) - Is Lip Region-of-Interest Sufficient for Lipreading? [24.294559985408192]
自己教師型学習によるリップリーディングに顔全体を採用することを提案する。
AV-HuBERTというマルチモーダルな自己教師型学習フレームワークを実験で採用した。
論文 参考訳(メタデータ) (2022-05-28T01:34:24Z) - Visualizing Automatic Speech Recognition -- Means for a Better
Understanding? [0.1868368163807795]
我々は、画像認識からインポートし、オーディオデータを扱うのに適した属性法が、ASRの動作を明らかにするのにどう役立つかを示す。
ASRのエンドツーエンドモデルであるSpeech Deepをケーススタディとして、これらの手法が、入力のどの特徴が出力を決定するのに最も影響するかを可視化するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2022-02-01T13:35:08Z) - Sub-word Level Lip Reading With Visual Attention [88.89348882036512]
我々は、リップリーディングで遭遇するユニークな課題に注目し、調整されたソリューションを提案する。
公開データセット上でのトレーニングにおいて,挑戦的なLSS2とLSS3ベンチマークの最先端結果を得る。
我々の最良のモデルはLRS2データセットで22.6%のワードエラー率を達成する。
論文 参考訳(メタデータ) (2021-10-14T17:59:57Z) - Learning Individual Speaking Styles for Accurate Lip to Speech Synthesis [37.37319356008348]
本研究は,話者の唇の動きのみを与えられた自然な音声を生成することを学ぶことを目的として,音声合成における唇の課題を探求する。
我々は,制約のない大規模な語彙設定において,個々の話者に対して,正確な唇配列から音声マッピングへの学習に焦点をあてる。
そこで本稿では, 音声合成の精度, 自然な唇を実現するために, 鍵となる設計選択を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-05-17T10:29:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。