論文の概要: Is Lip Region-of-Interest Sufficient for Lipreading?
- arxiv url: http://arxiv.org/abs/2205.14295v1
- Date: Sat, 28 May 2022 01:34:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-05 01:36:23.094247
- Title: Is Lip Region-of-Interest Sufficient for Lipreading?
- Title(参考訳): リップ領域はリップ読み取りに十分か?
- Authors: Jing-Xuan Zhang and Gen-Shun Wan and Jia Pan
- Abstract要約: 自己教師型学習によるリップリーディングに顔全体を採用することを提案する。
AV-HuBERTというマルチモーダルな自己教師型学習フレームワークを実験で採用した。
- 参考スコア(独自算出の注目度): 24.294559985408192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lip region-of-interest (ROI) is conventionally used for visual input in the
lipreading task. Few works have adopted the entire face as visual input because
lip-excluded parts of the face are usually considered to be redundant and
irrelevant to visual speech recognition. However, faces contain much more
detailed information than lips, such as speakers' head pose, emotion, identity
etc. We argue that such information might benefit visual speech recognition if
a powerful feature extractor employing the entire face is trained. In this
work, we propose to adopt the entire face for lipreading with self-supervised
learning. AV-HuBERT, an audio-visual multi-modal self-supervised learning
framework, was adopted in our experiments. Our experimental results showed that
adopting the entire face achieved 16% relative word error rate (WER) reduction
on the lipreading task, compared with the baseline method using lip as visual
input. Without self-supervised pretraining, the model with face input achieved
a higher WER than that using lip input in the case of limited training data (30
hours), while a slightly lower WER when using large amount of training data
(433 hours).
- Abstract(参考訳): 口唇の領域(ROI)は、通常、口唇の視覚入力に使用される。
顔の唇を除く部分は通常、視覚的音声認識とは無関係で冗長であると考えられているため、顔全体を視覚入力として採用する作品はほとんどない。
しかし、顔には話し手の頭の位置、感情、アイデンティティなど、唇よりも詳細な情報が含まれている。
顔全体を利用した強力な特徴抽出器を訓練すれば,このような情報が視覚音声認識の恩恵を受ける可能性がある。
本研究は,自己教師型学習によるリップリーディングに顔全体を採用することを提案する。
AV-HuBERTというマルチモーダルな自己教師型学習フレームワークを実験で採用した。
その結果, 視覚入力としてリップを用いたベースライン法と比較して, 唇読解作業における単語誤り率 (WER) は16%減少した。
自己指導型事前トレーニングがなければ, 顔入力を用いたモデルは, 訓練データが少ない場合(30時間), トレーニングデータが多い場合(433時間)に, リップ入力を用いた場合(30時間)より高いWERを達成した。
関連論文リスト
- Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and Context-Aware Visual Speech Processing [56.71450690166821]
LLM(VSP-LLM)を組み込んだビジュアル音声処理という新しいフレームワークを提案する。
VSP-LLMは、視覚音声認識と翻訳のマルチタスクを実行するように設計されている。
ラベル付きデータのたった30時間で訓練されたVSP-LLMは、唇の動きをより効果的に翻訳できることを示す。
論文 参考訳(メタデータ) (2024-02-23T07:21:32Z) - Leveraging Visemes for Better Visual Speech Representation and Lip
Reading [2.7836084563851284]
そこで本研究では,音声学的に類似した唇形状群であるビセムを利用して,より差別的で堅牢な唇読解ビデオ特徴を抽出する手法を提案する。
提案手法は,従来手法と比較して,唇読解単語誤り率(WER)を9.1%削減する。
論文 参考訳(メタデータ) (2023-07-19T17:38:26Z) - Seeing What You Said: Talking Face Generation Guided by a Lip Reading
Expert [89.07178484337865]
音声合成は、コヒーレントな音声入力が与えられた唇に関する顔の動きを再構成する。
従来の研究では、唇音の同期と視覚的品質が重要であった。
そこで我々は, 唇読解の専門家を用いて, 生成した唇領域の知性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-29T07:51:07Z) - Sub-word Level Lip Reading With Visual Attention [88.89348882036512]
我々は、リップリーディングで遭遇するユニークな課題に注目し、調整されたソリューションを提案する。
公開データセット上でのトレーニングにおいて,挑戦的なLSS2とLSS3ベンチマークの最先端結果を得る。
我々の最良のモデルはLRS2データセットで22.6%のワードエラー率を達成する。
論文 参考訳(メタデータ) (2021-10-14T17:59:57Z) - LiRA: Learning Visual Speech Representations from Audio through
Self-supervision [53.18768477520411]
セルフスーパービジョン(LiRA)による音声からの視覚的表現の学習を提案する。
具体的には、ResNet+Conformerモデルをトレーニングし、未学習の視覚音声から音響的特徴を予測する。
提案手法は,WildデータセットのLip Readingにおいて,他の自己教師的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-16T23:20:06Z) - Learn an Effective Lip Reading Model without Pains [96.21025771586159]
視覚的音声認識としても知られるリップ読み取りは、リップダイナミックスを解析することにより、ビデオから音声の内容を認識することを目的としている。
既存のほとんどの手法は、複雑なニューラルネットワークを構築することで高い性能を得た。
これらの戦略を適切に活用することは、モデルの大部分を変更することなく、常にエキサイティングな改善をもたらす可能性があることに気付きました。
論文 参考訳(メタデータ) (2020-11-15T15:29:19Z) - A Study on Lip Localization Techniques used for Lip reading from a Video [0.0]
唇読取は、音声認識において、音声が欠落している、あるいはノイズがない、あるいはノイズのない場合に有用である。
この技術は非対称な唇にも応用でき、口には目に見える歯、舌と口には口ひげがある。
論文 参考訳(メタデータ) (2020-09-28T15:36:35Z) - Can We Read Speech Beyond the Lips? Rethinking RoI Selection for Deep
Visual Speech Recognition [90.61063126619182]
我々は、最先端の音声認識モデルを用いて、異なる顔領域の効果を評価する。
口腔外顔面領域からの情報、上面でさえも、常にVSRの性能に寄与することが判明した。
論文 参考訳(メタデータ) (2020-03-06T13:52:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。